极客视点
极客时间编辑部
极客时间编辑部
113230 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/01:58
登录|注册

苹果公司透露Siri新发音引擎的内部原理

讲述:丁婵大小:920.10K时长:01:58
近日,苹果公司在他们的机器学习期刊上透露了他们是如何通过深度学习让 Siri 的发音更加自然的。
iPhone 用户使用自然语言向 Siri 提问,Siri 也通过语音回答问题。Siri 可以使用全球 36 个国家的 21 种语言回答问题。在 2017 年的 WWDC 苹果开发者大会上,苹果宣布了 iOS 11 上的 Siri 将使用最新的文本语音引擎。
iPhone 上的语音是通过拼接预先录制的人类语音来生成的,先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素——音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。
为录音选择合适的音素是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧版系统中只有几种录音,音素的来源有限,所以 Siri 的发音听起来会有点不自然。于是,苹果决定使用深度学习来确定声音单元在句子中的各种属性。
苹果使用一个经过训练的“深度混合密度网络(deep mixture density network)”来预测每一个音素在句子中的特征,同时设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。
每一台 iOS 设备都包含了一个小型的预存音素数据库。每一份数据都包含了各种音频属性,包括声音频谱的音高和音长。实际应用中,在通过“Viterbi”算法从数据库里找到需要的数据后,Siri 系统会选出最佳的音素组合,并把它们拼接起来,然后播放出声音。这样综合起来,就造就了 Siri 自然的发音。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 李佳
    原来Siri是这样的啊!😎
    2
收起评论
显示
设置
留言
1
收藏
9
沉浸
阅读
分享
手机端
快捷键
回顶部