近日，苹果在官方技术博客上发文，首次披露了 Siri 声纹识别的技术实现细节。自 2010 年苹果收购 Siri 团队之后，Siri 就一直作为苹果系列产品的语音助理存在。
苹果最初于 iPhone 6（iOS 8）上正式引入“Hey Siri”轻盈。这项功能允许用户在无需按下 home 键的情况下，轻松激活 Siri。当用户说出“Hey Siri”关键词之后，手机就会被唤醒，并将其余语音内容作为 Siri 请求进行处理。
这项功能的意义，在于确保当用户无暇腾出双手时，仍然可以访问放在身边的手机设备，并通过“Hey Siri”短语触发 Siri 语音助手功能。
苹果早期的离线实验结果显示，相较于理想中的合理调用比率，这样简单的激活语音会带来大量的意外激活状况。主要分为以下三种情况：
用户说出了类似的短语 ;
其他用户说出了“Hey Siri”;
其他用户说出了类似的短语。
为了减少这种错误激活比例的情况，苹果正在努力对每一台设备进行个性化设置，确保能够在大多数情况下，仅在机主说出“Hey Siri”时才有所反应。
为此，首先要进行说话人识别（简称 SR），其总体目标在于确定语音来源者的实际身份。苹果关注的是“谁在说话”，而不是“说了什么”，这也是说话人识别与语音识别间的核心差异。
据介绍，说话人识别系统的应用涉及两个步骤：登记与识别。在登记阶段，用户需要说出几条样本短语，这些短语将用于为用户的语音创建统计模型。而在识别阶段，系统会将传入的话语同用户训练模型进行比较，并根据该话语是否属于现有模型这一具体判断，决定接受或是拒绝。
而“Hey Siri”个性化（简称 PHS）的主要设计讨论围绕着两种用户登记方法展开：显式与隐式。在显式登记过程中，用户需要多次说出目标触发短语，并由设备上的说话人识别系统，利用这些口头表达内容，训练 PHS 说话人配置文件。
然而，在显式登记期间，录音内容中往往会包含非常微小的环境声变化。初始配置文件通常应该由纯语音创建完成，但现实世界中的情况几乎不可能达到这样的理想状态。
而隐式登记主要利用机主在一段时间内说出的话语，建立起说话人简档。由于这些录音是在现实世界的环境下生成的，因此，往往能够提高说话人话语特征的稳定性。不过，这种方式的风险在于可能接受模仿者的语音，或者将真实机主的输入内容视为错误信息。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部