谷歌通过深度学习模型升级语音转文字的服务
极客时间编辑部
讲述:杜力大小:3.15M时长:02:18
此前,谷歌宣布在源于 Magenta 项目的文字转语音(Text-to-Speech,简称 TTS)技术上取得代际突破。最近,该公司宣布对其语音转文字(Speech-to-Text,简称 STT)API 云服务进行了重大升级。
更新后的服务利用语音转录的深度学习模型,根据特定用例量身定制服务,商业应用范围包括电话会议、呼叫中心和视频转录等。同时,升级后的服务可以处理 120 种语言,以及不同模型可用性和功能级别的变体。
专用模型是根据音频媒体的特点来采样,从而产生带宽和信号持续时间。例如,电话音频的采样频率是 8Khz,音频质量较低,而来自视频的音频,采样频率通常是 16Khz。因此,需要针对每种媒体类型进行模型优化。
众包真实世界音频样本是谷歌改进其模型战略的核心,随着所谓“数据记录”的可选程序的发布,用户可以选择跟谷歌共享他们的音频,以帮助改进模型。
“数据记录“的启用让用户可以访问具有更好性能的增强模型。谷歌表示, 与标准电话模型相比,新的增强模型的词汇错误减少了 54%,而对于增强视频模型,错误减少了 64%。
词汇错误减少不是提升语音转文字整体质量的唯一因素,标点符号的预测仍然是语言转录面临的重要挑战。谷歌的语音转文字 API 现在能够给转录后的文本添加标点符号,进一步提高了转自长音频序列的文本的可读性。
据介绍,这种自动添加标点符号的功能是利用了 LSTM 神经网络模型。谷歌最近的研究显示,用于语音转文字的深度学习通常是基于序列到序列,也就是 Seq2seq(sequence-to-sequence)的神经网络模型,这些模型也可以应用于机器翻译和文本摘要。
简而言之,Seq2seq 模型使用第一个 LSTM 对音频输入进行编码,第二个 LSTM 以输入序列为条件,对数据进行解码,并把数据转换成转录文本。
其他现有的语音转文字服务包括支持 29 种语言的微软语音识别 API、支持 7 种语言的 IBM 沃森 API 等。来自佛罗里达技术学院的研究显示,相较于这些服务,谷歌语音转文字服务 API 的错误率较低。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论