腾讯俞栋谈语音识别领域的现状与进展
极客时间编辑部
讲述:丁婵大小:1.39M时长:03:02
此前,腾讯 AI Lab 副主任俞栋发表了主题为《语音识别领域的前沿研究》的演讲,分享了语音领域的四个前沿方向,包括:更有效的序列到序列直接转换模型,鸡尾酒会问题,持续预测与适应的模型,以及前端与后端联合优化等。近日,俞栋再次谈到了这些问题的研究现状。
关于语音领域整体的研究,俞栋表示,虽然很多公司已经宣称,可以在标准数据集或安静的近场环境下达到 “97% 识别率”、“超过人”等水平,但是实际上市面上的产品,在很多真实的应用场景下,尤其是远场、中文夹杂英文、旁边有人说话这些情况下,效果还远远达不到期望值,仍然还有很多待研究的问题。
比如,现在的系统鲁棒性都不太高,而且都要依赖增加数据(包括合成的模拟数据)来提高鲁棒性。这一点对于基于深度学习的系统来说尤为明显,数据没覆盖的情况做不好,是这类方法的一个局限性。
很早之前就有人意识到了这一问题,并开发出了很多自适应算法,试图根据场景和环境的变化做自适应。目前来说,自适应算法虽然起到了一定的作用,但是还不能完全解决鲁棒性的问题。
目前,端到端系统基本上基于两个框架,一个是 CTC(Connectionist Temporal Classification)框架,一个是基于注意力机制的 seq2seq 框架。
基于注意力的框架投入使用相对较少,CTC 模型用得则比较多。俞栋透露,腾讯的产品上既有 CTC 模型,也有混合模型,在性能上没有太大区别。
CTC 可以采用更大的建模单元,但是也有缺点,那就是存在一个随机延迟的问题,即结果出来的时间不是预先可知的。随机延迟的后果是断句困难,这就会给用户造成一种“你怎么比别人慢”的感觉。因此,做交互的系统,比如语音助手类,大部分仍然在使用混合系统。
目前,语音识别研究人员的方向主要可以分为声学前端、声学模型和语言模型三类。
声学前端主要围绕在家居和车载环境所必须的麦克风阵列、降噪、去回声、去混响、唤醒等功能;声学模型主要关注如何将声学信号建模;语言模型则对语言文字本身建模。
俞栋表示,语言模型技术相对稳定,不同语言之间差异也不是特别大,一般擅长声学模型的研究员也能做出不错的语言模型,但是声学前端和声学模型所需的技能是完全不同的,因此要分别找到合适的人选。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论