AI 大模型之美
徐文浩
bothub 创始人
32335 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 33 讲
AI 大模型之美
15
15
1.0x
00:00/00:00
登录|注册

20|TTS与语音合成:让你的机器人拥有声音

播放WAV文件
安装PyAudio依赖
支持中英文混合语音合成
使用TTSExecutor
安装PaddleSpeech包
输出格式设置(如MP3)
存储为文件
异步播放
使用SSML(Speech Synthesis Markup Language)
指定语音风格与角色(Styles和Roles)
选择voice_name
基本语音合成代码示例
安装azure-cognitiveservices-speech
设置环境变量
获取API Key
注册Azure账号
提供免费额度
与OpenAI合作
PaddleSpeech官方文档
对比OpenAI Whisper和PaddleSpeech的效果
尝试PaddleSpeech进行语音识别
下一讲预告:搭建语音聊天机器人
Transformer模型在语音合成中的应用
Azure云API与PaddleSpeech开源方案
音频播放
PaddleSpeech
输出方式
语音合成参数
Python SDK
注册与配置
微软Azure云服务
文本转语音(Text-To-Speech, TTS)
单向沟通到双向互动
让AI“说话”
推荐阅读
思考题
小结
使用开源模型进行语音合成
使用Azure云进行语音合成
概述
TTS与语音合成

该思维导图由 AI 生成,仅供参考

你好,我是徐文浩。
上一讲里,我们通过 Whisper 模型,让 AI“听懂”了我们在说什么。我们可以利用这个能力,让 AI 替我们听播客、做小结。不过,这只是我们和 AI 的单向沟通。那我们能不能更进一步,让 AI 不仅能“听懂”我们说的话,通过 ChatGPT 去回答我们问的问题,最后还能让 AI 把这些内容合成为语音,“说”给我们听呢?
当然可以,这也是我们这一讲的主题,我会带你一起来让 AI 说话。和上一讲一样,我不仅会教你如何使用云端 API 来做语音合成(Text-To-Speech),也会教你使用开源模型,给你一个用本地 CPU 就能实现的解决方案。这样,你也就不用担心数据安全的问题了。

使用 Azure 云进行语音合成

语音合成其实已经是一个非常成熟的技术了,现在在很多短视频平台里,你听到的很多配音其实都是通过语音合成技术完成的。国内外的各大公司都有类似的云服务,比如科大讯飞阿里云百度AWS PollyGoogle Cloud等等。不过,今天我们先来体验一下微软 Azure 云的语音合成 API。选用 Azure,主要有两个原因。
因为微软和 OpenAI 有合作,Azure 还提供了 OpenAI 相关模型的托管。这样,我们在实际的生产环境使用的时候,只需要和一个云打交道就好了。
价格比较便宜,并且提供了免费的额度。如果你每个月的用量在 50 万个字符以内,那么就不用花钱。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

使用TTS和语音合成技术让机器人拥有声音已成为可能。本文首先介绍了在Azure云上进行语音合成的基本步骤,包括注册账号、设置API Key和Region,并安装对应的Python包。作者演示了如何指定语音的风格与角色,以及指定语音的输出方式。通过示例代码,读者可以了解如何使用Azure云的语音合成API来实现不同声音、语气和角色的语音合成,并将合成的语音输出到文件或直接播放。文章还介绍了SSML格式的使用,以及如何在不同场景下让AI“演绎”不同的语音。另外,文章还介绍了百度开源的PaddleSpeech的语音合成功能,以及如何在自己的服务器上进行语音合成。通过PaddleSpeech的TTSExecutor,读者可以将文本内容转换成WAV文件,并通过PyAudio包在Python里播放对应的声音。文章还提到了PaddleSpeech默认只支持中文的语音合成,但通过指定参数可以实现中英文混合的语音合成。总的来说,本文通过实际操作和示例代码,帮助读者快速了解了TTS和语音合成技术的基本原理和应用方法,以及如何在Azure云和PaddleSpeech上实现语音合成。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型之美》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • 胡萝卜
    这个英文转语音效果不错 https://github.com/suno-ai/bark

    作者回复: 👍 bark是最近比较火的一个模型

    2023-04-24归属地:上海
    2
    7
  • Toni
    尝试用百度的 PaddlePaddle,将语音文件(.wav) 转换成文字(语音识别)。 1. 语音中只含中文,实现代码如下: from paddlespeech.cli.asr.infer import ASRExecutor asr = ASRExecutor() audio_file="./data/BaiduTTS/zh.wav" result = asr(audio_file=audio_file) print(result) 输出结果: 我认为跑步最重要的就是给我带来了身体健康 语音原文: 我认为跑步最重要的就是给我带来了身体健康 2. 语音为中英文混合的文件 "./data/BaiduTTS/paddlespeech_mix_1.wav",用上面的代码运行 输出结果: 早上好哈沃尔姨百度他都斯一样能做中英文混合的语音合成 语音原文: 早上好, how are you? 百度 Paddle Speech 一样能做中英文混合的语音合成 处理中英文混合的语音文件,进行语音识别时,需要给 ASRExecutor() 添加参数,代码如下: from paddlespeech.cli.asr import ASRExecutor asr = ASRExecutor() audio_file="./data/BaiduTTS/paddlespeech_mix_1.wav" result = asr(model='conformer_talcs', lang='zh_en', codeswitch=True, sample_rate=16000, audio_file=audio_file, config=None, ckpt_path=None, force_yes=False) print(result) 输出结果: 早上好 how are you 百度它读 speech 一样能做中英文混合的语音合成 对照语音原文,ASRExecutor() 将语音 "百度 Paddle Speech" 转成了 "百度它读 speech",并不完美。 期待更好的解决方案。 参考: 【PaddleSpeech】一键预测,快速上手Speech开发任务 https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660878142250 一文读懂 PaddleSpeech 中英混合语音识别技术 https://xie.infoq.cn/article/c05479afe4291255d91ed950f Load specified model files for TTS cli #2225 https://github.com/PaddlePaddle/PaddleSpeech/issues/2225 PaddlePaddle/PaddleSpeech https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/demos/audio_tagging/README_cn.md

    作者回复: 👍

    2023-04-23归属地:瑞士
    3
    5
  • zhihai.tu
    openai本身没有tts的api吗?期待下一讲。

    作者回复: OpenAI没有,语音是相对比较成熟的领域,各种开源和商业的方案很多,价格也比较便宜。

    2023-04-21归属地:上海
    3
    2
  • 劉仲仲
    老师,为甚么我用Azure语音服务,在jupyter notebook上已经跑通而且可以播放声音,但是一部署到hugging face上面就发不出声音呢

    作者回复: 看看是否浏览器权限设置不能播放声音?

    2023-05-08归属地:美国
  • Steven
    补充 Windows 下安装 portaudio 库: 1,下载安装 MSYS2: https://www.msys2.org/ 2,MSYS2 安装完成后在其命令行窗口中执行: pacman -S mingw-w64-x86_64-portaudio

    作者回复: 👍

    2023-04-25归属地:辽宁
  • jeff
    M1 芯片可以跑起来 paddleSpeech 吗?
    2023-08-28归属地:河北
  • jeff
    除去 PaddleSpeech 还有其他成熟方案吗?适合生产用的
    2023-08-28归属地:河北
  • jeff
    paddlepaddle 在 colab 安装失败....
    2023-08-28归属地:河北
  • PzLu
    老师,有没有克隆声音的比较好的开源库推荐,类似 MockingBird 的?
    2023-06-26归属地:浙江
  • 厚积薄发
    老师,PaddleSpeech 转换语音很慢,有没有什么好办法
    2023-06-06归属地:北京
    1
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部