谷歌开源AI可在嘈杂环境中区分声音
极客时间编辑部
讲述:丁婵大小:1.00M时长:02:12
近日,据外媒报道,谷歌人工智能研究部门在语音识别方面取得了新的进展,能够从嘈杂的环境中分辨声音,准确率高达 92%。谷歌人工智能研究部门在一篇论文中(Fully Super vised Speaker Diarization)详细描述了这一新的 AI 系统,称它能够以一种更有效的方式识别声音。
这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。
现在,它的核心算法已经开源可用,实现了一个在线二值化错误率 (DER),在 NIST SRE 2000 CALLHOME 基准上是 7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法为 8.8%。
据了解,谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都能够从自己的递归神经网络实例开始,该实例不断更新给定新嵌入的 RNN 状态,使系统能够学习发言者共享的高级知识。
研究人员在论文中写道,由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。他们的系统受到了全面监督,能够从带有时间戳的演讲者标签例子中学习。
在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少二值化错误率。研究人员还希望能够直接对声学特征进行建模,这样整个 Speaker diarization 系统就可以进行端到端的训练。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论