人工智能基础课
王天一
工学博士,副教授
立即订阅
11752 人已学习
课程目录
已完结 58 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 人工智能:新时代的必修课
免费
数学基础 (7讲)
01 数学基础 | 九层之台,起于累土:线性代数
02 数学基础 | 月有阴晴圆缺,此事古难全:概率论
03 数学基础 | 窥一斑而知全豹:数理统计
04 数学基础 | 不畏浮云遮望眼:最优化方法
05 数学基础 | 万物皆数,信息亦然:信息论
06 数学基础 | 明日黄花迹难寻:形式逻辑
(课外辅导)数学基础 | 拓展阅读参考书
机器学习 (10讲)
07 机器学习 | 数山有路,学海无涯:机器学习概论
08 机器学习 | 简约而不简单:线性回归
09 机器学习 | 大道至简:朴素贝叶斯方法
10 机器学习 | 衍化至繁:逻辑回归
11 机器学习 | 步步为营,有章可循:决策树
12 机器学习 | 穷则变,变则通:支持向量机
13 机器学习 | 三个臭皮匠,赛过诸葛亮:集成学习
14 机器学习 | 物以类聚,人以群分:聚类分析
15 机器学习 | 好钢用在刀刃上:降维学习
(课外辅导)机器学习 | 拓展阅读参考书
人工神经网络 (7讲)
16 人工神经网络 | 道法自然,久藏玄冥:神经网络的生理学背景
17 人工神经网络 | 一个青年才俊的意外死亡:神经元与感知器
18 人工神经网络 | 左手信号,右手误差:多层感知器
19 人工神经网络 | 各人自扫门前雪:径向基函数神经网络
20 人工神经网络 | 看不见的手:自组织特征映射
21 人工神经网络 | 水无至清,人莫至察:模糊神经网络
(课外辅导)人工神经网络 | 拓展阅读参考书
深度学习 (7讲)
22 深度学习 | 空山鸣响,静水流深:深度学习概述
23 深度学习 | 前方有路,未来可期:深度前馈网络
24 深度学习 | 小树不修不直溜:深度学习中的正则化
25 深度学习 | 玉不琢不成器:深度学习中的优化
26 深度学习 | 空竹里的秘密:自编码器
27 深度学习 | 困知勉行者勇:深度强化学习
(课外辅导)深度学习 | 拓展阅读参考书
深度学习框架下的神经网络 (5讲)
28 深度学习框架下的神经网络 | 枯木逢春:深度信念网络
29 深度学习框架下的神经网络 | 见微知著:卷积神经网络
30 深度学习框架下的神经网络 | 昨日重现:循环神经网络
31 深度学习框架下的神经网络 | 左右互搏:生成式对抗网络
32 深度学习框架下的神经网络 | 三重门:长短期记忆网络
深度学习之外的人工智能 (4讲)
33 深度学习之外的人工智能 | 一图胜千言:概率图模型
34 深度学习之外的人工智能 | 乌合之众的逆袭:集群智能
35 深度学习之外的人工智能 | 授人以鱼不如授人以渔:迁移学习
36 深度学习之外的人工智能 | 滴水藏海:知识图谱
应用场景 (4讲)
37 应用场景 | 你是我的眼:计算机视觉
38 应用场景 | 嘿, Siri:语音处理
39 应用场景 | 心有灵犀一点通:对话系统
40 应用场景 | 数字巴别塔:机器翻译
加餐 (5讲)
课外谈 | “人工智能基础课”之二三闲话
推荐阅读 | 我与人工智能的故事
直播回顾 | 机器学习必备的数学基础
第2季回归 | 这次我们来聊聊机器学习
新书 | 《裂变:秒懂人工智能的基础课》
复习课 (7讲)
一键到达 | 数学基础复习课
一键到达 | 机器学习复习课
一键到达 | 人工神经网络复习课
一键到达 | 深度学习复习课
一键到达 | 深度学习框架下的神经网络复习课
一键到达 | 深度学习之外的人工智能复习课
一键到达 | 应用场景复习课
结束语 (1讲)
结课 | 溯洄从之,道阻且长
人工智能基础课
登录|注册

38 应用场景 | 嘿, Siri:语音处理

王天一 2018-03-06

Siri 是由苹果公司开发的智能语音助手。2011 年 10 月,Siri 以系统内置应用的方式随 iPhone 4s 一起发布,并被逐步集成到苹果的全线产品之中。Siri 支持自然语言的输入与输出,可以通过与用户的语言交互实现朗读短信、介绍餐厅、询问天气、设置闹钟等简单功能,它还能不断学习新的声音和语调,并提供对话式的应答。今天,我就结合苹果公司关于 Siri 的介绍简单谈谈人工智能中的语音处理。

Siri 的语音处理包括语音识别语音合成两部分。语音识别(speech recognition)的作用是听懂用户的话,语音合成(speech synthesis)的作用则是生成 Siri 自己的回答。目前在苹果公司公开的技术博客 Apple Machine Learning Journal 上,主要给出的是语音合成的技术方案,但这些方案对语音识别也有启发。

在很多游戏和软件中,语音提示都是由声优提前录制而成,但以 Siri 为代表的实时语音助手们必须采用语音合成技术。业界主流的语音合成方法有两种:单元选择和参数合成

当具备足够数量的高品质录音时,单元选择方法能够合成出自然的高质量语音。相比之下,参数合成方法得到的结果虽然更加流利且容易识别,其整体质量却有所不及,因而适用于语料库较小的情景。

将两者结合起来就得到了混合单元选择模式:其基本思路仍然是单元选择的思路,在预测需要选择的单元时则采用参数方法,Siri 正是采用了这种模式。

要实现高质量的语音合成,足够的录音语料是必备的基础。但这些语料不可能覆盖所有的表达,因而需要将其划分为音素和半音素等更微小的基本单元,再根据由输入语音转换成的文本将基本单元重组,合成全新的语音。

当然,这样的重组绝非易事:在自然语言中,每个音素的选择既依赖于相邻音素,也取决于整体语句的音韵。单元选择方法完成的正是基本单元重组的任务:既要与输入的文本对应,又要生成符合语句内容的音调与音韵,同时还不能出现明显的打喯儿与中断。

Siri 的语音合成系统包括文本分析、音韵生成、单元选择、波形串联四个模块,前两个环节对应前端的文本处理,后两个环节则对应后端的信号处理

© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《人工智能基础课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(2)

  • 林彦
    没怎么用过。如果有个语音助手能协助我听懂和说出别人听不出来的中国各地方言,我肯定会用 😊
    2018-03-09
    2
  • 风的轨迹
    1.包含两种语言单词混合的语音识别效果不好,越专业的词汇效果越不好
    2. 合成语音读小说得效果不好,必须集中精力听才能听懂,其实还是多了一层人工翻译的过程

    作者回复: 总而言之还是不自然,听Siri就能听出来

    2018-06-08
收起评论
2
返回
顶部