欲网棋牌

语音理解与合成公开课来了!字节跳动智能语音方向工程负责人司徒文畅主讲

欲网棋牌 8173 欲网棋牌

人工智能发展到现在,大家对语音技术已经不陌生了。其中,音频理解与合成在我们日常生活中具有广泛的应用,比如视频字幕生成、视频配音、有声新闻、有声小说等,极大的丰富了我们的生活。

音频理解是指通过语音识别、事件检测、语种识别、声纹识别、关键词检测等技术从音频数据中解析出多维度信息(音频的类型、内容等);音频合成则是包括TTS、音色转换等技术,能从文本或者原始语音生成不同风格的音频。借助这两种技术,音频内容创作人员可以实现一键生成字幕和一键配音,极大提升效率。

伴随短视频和音频类应用兴起,用户请求量、音频数据正呈几何级别增长,为大规模数据模型训练以及高并发低延迟的推理带来诸多挑战:模型训练的速度、规模影响模型效果迭代的效率,在线推理的性能则直接影响用户的体验。那么,大规模音频理解和合成的训练和推理应如何构建和加速?

字节跳动人工智能实验室在训练和推理中部署了大量NVIDIA Tesla系列GPU,包含面向AI训练的V100和面向推理加速的P4、T4等,为大规模音频理解与合成的训练和推理提供强有力的支撑,使其可以广泛应用于抖音、今日头条等大流量场景。

3月12日,智东西公开课推出语音理解与合成公开课NVIDIA&字节跳动联合专场,并邀请到字节跳动智能语音方向工程负责人司徒文畅主讲,主题为《大规模音频理解与合成解决方案及应用》。

欲网棋牌司徒文畅老师将从音频理解与合成的关键技术、应用、分布式训练和在线推理加速等方面为我们带来系统讲解。

课程时间

欲网棋牌时间:3月12日

地点:智东西公开课小程序

课程详情

主题:大规模音频理解与合成解决方案及应用

讲师:字节跳动智能语音方向工程负责人司徒文畅

提纲:

1、音频理解与合成的关键技术及应用

2、音频理解与合成分布式训练平台及加速方案

3、音频理解与合成在线推理框架及应用加速

讲师介绍

司徒文畅,2011年毕业于清华大学电子系,超过5年语音工程实践经验,现任字节跳动人工智能实验室智能语音方向工程负责人、服务架构师,致力于打造工业级智能语音解决方案以及极致语音应用体验。

入群路径

本次课程我

们将设置主讲群,讲师将亲自入群交流。希望进入主讲群与老师认识和交流的朋友,扫描海报下方二维码添加智东西公开课联络员“小智(zhidxone)”为好友,添加时请备注“姓名-公司-职位或姓名-学校-专业”,申请进入课程群交流。

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~