极客视点
极客时间编辑部
极客时间编辑部
113230 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/02:53
登录|注册

谷歌Pixel Buds翻译耳机是如何工作的?

讲述:杜力大小:1.32M时长:02:53
今年 10 月,谷歌推出了 Pixel Buds 耳机,这款无线耳机可以利用 Pixel 手机上的谷歌翻译 APP,把用户所说的和所听到的话在 40 种语言里随意翻译。那么从 Pixel Buds 听到语音的一瞬间,到被翻译好的语音从手机中播放出来,中间使用了哪些技术呢?
输入调节。耳机所“听到的”语音会包含大量的背景噪音,所以“除噪”是必须的,而语音活性检测 VAD 则会让 Pixel Buds 只有在用户说话时候才会响应。
语言识别 LID。LID 会使用机器学习,在几秒内识别所说的语言是哪一种,而仅仅用发音来识别语言并不可靠,很多语言的发音几乎一模一样,所以,谷歌必须发明一种全新的声学模型来识别语言。
自动语音识别 ASR。ASR 会使用该声学模型把记录的语音转换成一个个音素,然后具体的语言模型会把这些音素数据转换为文字,并推断出一段基本正确的文字。
自然语言处理 NLP。NLP 需要理解语音背后的意思,然后把这个意思用另外一种语言表达出来。
语音合成 TTS。TTS 需要将一段文字生成一段听起来十分自然的语音。现代 TTS 系统会使用复杂的统计声学模型来产生听起来十分自然的声音。
当人们把这 5 个不同的技术放在一起的时候,实现实时翻译也就不难了。但是它们具体是如何工作呢?
以中英翻译为例,当 Pixel Buds 收到翻译的指令后,它会首先将语音录下来,用 VAD 来判断这段话从哪开始、在哪结束。背景的噪音在语音被耳机记录的时候就会先被过滤一遍,然后在被传到手机上的时候再被过滤一遍。手机中的 APP 会对这段语音进行压缩,避免用太多的数据流量,然后在通过无线网或 4G 把它上传到谷歌的语音服务器。
谷歌的云端服务器会对这段语音进行解压,然后使用 LID 技术来判断所说的是汉语还是英语。
假设这段语音是汉语,那么汉语的 ASR 系统就会接手,将它转化为文字。之后,NLP 系统会把汉字翻译成英文文字,然后再发送给英语 TTS 软件,合成为英语语音。这段被压缩的语音会沿原路返回到手机和耳机中,并播放出来。
虽然这个过程听起来很复杂,但是在现实中仅需几秒钟就能完成。不过这几秒非常关键,因为耳机和手机中的处理器并没有足够的能力来进行本地翻译,也没有足够的空间去存储各种语言和声学模型。
最重要的是,市面上包括谷歌、科大讯飞以及 IBM 在内的所有实时翻译产品都在无时不刻的进行着更新,努力提高性能和用户体验。而对自己的云端服务器进行更新很显然要比对无数个用户的耳机进行更新更容易。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • Sasha
    是不是可以把除噪这个功能用在口译员身上咧...毕竟很多现场翻译都有超级多噪音....
收起评论
显示
设置
留言
1
收藏
10
沉浸
阅读
分享
手机端
快捷键
回顶部