阿里巴巴开源语音识别模型 DFSMN
极客时间编辑部
讲述:丁婵大小:1023.91K时长:02:11
近日,阿里巴巴达摩院开源了新一代语音识别模型 DFSMN,它不仅被谷歌等国外巨头在论文中重点引用,更是将全球语音识别的准确率提高到了 96.04%(这一数据测试基于世界最大的免费语音识别数据库 LibriSpeech)。
据悉,DFSMN 使用了基于 BLSTM 的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性进行变换。
而官方介绍,对比目前业界使用最为广泛的 LSTM 模型,DFSMN 的训练速度更快、识别准确率更高。那些采用了全新 DFSMN 模型的智能音响或智能家居设备,深度学习训练的速度提高了 3 倍,语音识别的速度也提高了 2 倍。
去年 12 月,上海地铁与阿里云携手推出了上海地铁语音售票机。而在当时,在装有 DFSMN 语音识别模型的”AI 收银员”与真人店员的对比中,即使在嘈杂环境下,也准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。装备这一语音识别技术的自动售票机已经在上海地铁“上岗”。
著名语音识别专家,西北工业大学教授谢磊表示,阿里此次开源的 DFSMN 模型,在语音识别准确率上的提升是突破性的,是近年来深度学习在语音识别领域最具有代表性的成果之一,对全球的学术界和 AI 技术应用都有着巨大影响。
阿里巴巴达摩院语音交互智能实验室的首席科学家鄢志杰表示,今天语音交互技术的真实水平,与用户的期待、业界的 PR 存在着明显的鸿沟。而这次阿里巴巴开源 DFSMN,是希望能够让更多的开发者在语音识别领域发光发热。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- kes竟然看到了我大西北工业大学
收起评论