苹果公司透露Siri新发音引擎的内部原理
极客时间编辑部
讲述:丁婵大小:920.10K时长:01:58
近日,苹果公司在他们的机器学习期刊上透露了他们是如何通过深度学习让 Siri 的发音更加自然的。
iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用全球 36 个国家的 21 种语言回答问题。在 2017 年的 WWDC 苹果开发者大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。
iPhone 上的语音是通过拼接预先录制的人类语音来生成的,先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素——音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。
为录音选择合适的音素是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧版系统中只有几种录音,音素的来源有限,所以 Siri 的发音听起来会有点不自然。于是,苹果决定使用深度学习来确定声音单元在句子中的各种属性。
苹果使用一个经过训练的“深度混合密度网络(deep mixture density network)”来预测每一个音素在句子中的特征,同时设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。
每一台 iOS 设备都包含了一个小型的预存音素数据库。每一份数据都包含了各种音频属性,包括声音频谱的音高和音长。实际应用中,在通过“Viterbi”算法从数据库里找到需要的数据后,Siri 系统会选出最佳的音素组合,并把它们拼接起来,然后播放出声音。这样综合起来,就造就了 Siri 自然的发音。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 李佳原来Siri是这样的啊!😎2
收起评论