此前，腾讯 AI Lab 副主任俞栋发表了主题为《语音识别领域的前沿研究》的演讲，分享了语音领域的四个前沿方向，包括：更有效的序列到序列直接转换模型，鸡尾酒会问题，持续预测与适应的模型，以及前端与后端联合优化等。近日，俞栋再次谈到了这些问题的研究现状。
关于语音领域整体的研究，俞栋表示，虽然很多公司已经宣称，可以在标准数据集或安静的近场环境下达到 “97% 识别率”、“超过人”等水平，但是实际上市面上的产品，在很多真实的应用场景下，尤其是远场、中文夹杂英文、旁边有人说话这些情况下，效果还远远达不到期望值，仍然还有很多待研究的问题。
比如，现在的系统鲁棒性都不太高，而且都要依赖增加数据（包括合成的模拟数据）来提高鲁棒性。这一点对于基于深度学习的系统来说尤为明显，数据没覆盖的情况做不好，是这类方法的一个局限性。
很早之前就有人意识到了这一问题，并开发出了很多自适应算法，试图根据场景和环境的变化做自适应。目前来说，自适应算法虽然起到了一定的作用，但是还不能完全解决鲁棒性的问题。
目前，端到端系统基本上基于两个框架，一个是 CTC（Connectionist Temporal Classification）框架，一个是基于注意力机制的 seq2seq 框架。
基于注意力的框架投入使用相对较少，CTC 模型用得则比较多。俞栋透露，腾讯的产品上既有 CTC 模型，也有混合模型，在性能上没有太大区别。
CTC 可以采用更大的建模单元，但是也有缺点，那就是存在一个随机延迟的问题，即结果出来的时间不是预先可知的。随机延迟的后果是断句困难，这就会给用户造成一种“你怎么比别人慢”的感觉。因此，做交互的系统，比如语音助手类，大部分仍然在使用混合系统。
目前，语音识别研究人员的方向主要可以分为声学前端、声学模型和语言模型三类。
声学前端主要围绕在家居和车载环境所必须的麦克风阵列、降噪、去回声、去混响、唤醒等功能；声学模型主要关注如何将声学信号建模；语言模型则对语言文字本身建模。
俞栋表示，语言模型技术相对稳定，不同语言之间差异也不是特别大，一般擅长声学模型的研究员也能做出不错的语言模型，但是声学前端和声学模型所需的技能是完全不同的，因此要分别找到合适的人选。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部