苹果首次披露Siri声纹识别技术
极客时间编辑部
讲述:丁婵大小:1.44M时长:03:09
近日,苹果在官方技术博客上发文,首次披露了 Siri 声纹识别的技术实现细节。自 2010 年苹果收购 Siri 团队之后,Siri 就一直作为苹果系列产品的语音助理存在。
苹果最初于 iPhone 6(iOS 8)上正式引入“Hey Siri”轻盈。这项功能允许用户在无需按下 home 键的情况下,轻松激活 Siri。当用户说出“Hey Siri”关键词之后,手机就会被唤醒,并将其余语音内容作为 Siri 请求进行处理。
这项功能的意义,在于确保当用户无暇腾出双手时,仍然可以访问放在身边的手机设备,并通过“Hey Siri”短语触发 Siri 语音助手功能。
苹果早期的离线实验结果显示,相较于理想中的合理调用比率,这样简单的激活语音会带来大量的意外激活状况。主要分为以下三种情况:
用户说出了类似的短语 ;
其他用户说出了“Hey Siri”;
其他用户说出了类似的短语。
为了减少这种错误激活比例的情况,苹果正在努力对每一台设备进行个性化设置,确保能够在大多数情况下,仅在机主说出“Hey Siri”时才有所反应。
为此,首先要进行说话人识别(简称 SR),其总体目标在于确定语音来源者的实际身份。苹果关注的是“谁在说话”,而不是“说了什么”,这也是说话人识别与语音识别间的核心差异。
据介绍,说话人识别系统的应用涉及两个步骤:登记与识别。在登记阶段,用户需要说出几条样本短语,这些短语将用于为用户的语音创建统计模型。而在识别阶段,系统会将传入的话语同用户训练模型进行比较,并根据该话语是否属于现有模型这一具体判断,决定接受或是拒绝。
而“Hey Siri”个性化(简称 PHS)的主要设计讨论围绕着两种用户登记方法展开:显式与隐式。在显式登记过程中,用户需要多次说出目标触发短语,并由设备上的说话人识别系统,利用这些口头表达内容,训练 PHS 说话人配置文件。
然而,在显式登记期间,录音内容中往往会包含非常微小的环境声变化。初始配置文件通常应该由纯语音创建完成,但现实世界中的情况几乎不可能达到这样的理想状态。
而隐式登记主要利用机主在一段时间内说出的话语,建立起说话人简档。由于这些录音是在现实世界的环境下生成的,因此,往往能够提高说话人话语特征的稳定性。不过,这种方式的风险在于可能接受模仿者的语音,或者将真实机主的输入内容视为错误信息。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论