AI 大模型之美
徐文浩
bothub 创始人
32335 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 33 讲
AI 大模型之美
15
15
1.0x
00:00/00:00
登录|注册

21|DID和PaddleGAN:表情生动的数字人播报员

源码和论文研究
训练个性化数字人
First Order Motion Model
创意产品开发
替换成个人声音
预训练模型应用
AI产品搭建
文本生成口播视频
生成动态人脸视频
依赖安装
环境配置
唇形和表情匹配
对抗生成网络算法
PaddleSpeech
Whisper模型
ChatGLM
循环等待视频生成
视频生成与播放逻辑
HTML组件播放视频
视频播放
Get A Talk接口
Create A Talk接口
API_KEY获取
免费额度
自动播放合成语音
SpeechSDK
Azure语音合成
语音识别转录
OpenAI Whisper API
Gradio Audio组件
SummaryBufferMemory
Langchain的ConversationChain
ChatGPT
开源数字人方案
个性化数字人创造
开源技术拐点
PaddleBobo项目
PaddleGAN项目
开源模型替代方案
Gradio应用集成
D-ID API使用
注册D-ID账号
语音回复功能
语音输入功能
文本ChatBot
推荐阅读
总结与思考
PaddleGAN数字主播
D-ID数字人视频生成
语音交互聊天机器人
数字人播报员技术总结

该思维导图由 AI 生成,仅供参考

你好,我是徐文浩。
上一讲里,我们已经学会了通过 AI 来进行语音合成。有了语音识别、ChatGPT,再加上这个语音合成,我们就可以做一个能和我们语音聊天的机器人了。不过光有声音还不够,我们还希望这个声音可以是某一个特定的人的声音。就好像在电影《Her》里面那样,AI 因为用了影星斯嘉丽·约翰逊的配音,也吸引到不少观众。最后,光有声音还不够,我们还希望能够有视觉上的效果,最好能够模拟自己真的在镜头面前侃侃而谈的样子。
这些需求结合在一起,就是最近市面上很火的“数字人”,也是我们这一讲要学习的内容。当然,在这么短的时间里,我们做出来的数字人的效果肯定比不上商业公司的方案。不过作为概念演示也完全够用了。

制作一个语音聊天机器人

从文本 ChatBot 起步

我们先从最简单的文本 ChatBot 起步,先来做一个和第 6 讲一样的文本聊天机器人。对应的代码逻辑和第 6 讲的 ChatGPT 应用基本一样,整个的 UI 界面也还是使用 Gradio 来创建。
唯一的区别在于,我们把原先自己封装的 Conversation 类换成了 Langchain 的 ConversationChain 来实现,并且使用了 SummaryBufferMemory。这样,我们就不需要强行设定只保留过去几轮对话了。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

利用AI技术打造数字人是本文的主题。文章介绍了如何使用AI语音合成技术和D-ID技术来制作语音聊天机器人和实现视频表情的数字人。通过示例代码展示了数字人技术的实用性和创新性。读者可以通过本文了解数字人技术的最新发展,并在本地运行体验。文章以简洁的代码和清晰的示例,展示了数字人技术的应用和实现方法。此外,文章还提到了开源项目PaddleBobo,展示了如何使用开源模型来合成口播视频。总的来说,本文为读者提供了一个全面了解数字人技术及其应用的机会,同时鼓励他们尝试使用开源项目进行数字人技术的实践和创新。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型之美》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • 勇.Max
    特意赶到最新进度的文章给老师留言咨询个问题: 背景:首先,这个课程真的是干货满满,物超所值,感谢老师的辛苦、认真付出!但是,作为一个10来年经验的老码农(现在是区块链方面的架构、研发)总觉得跟得有点吃力,原因是缺少AI方面的基础知识,对课程中的一些库、算法的原理缺少基本的概念认知。当然如果只局限于”过一遍代码、熟练使用“基本是够了,但是我觉得还达不到入门级。所以,特地来请教下老师哪些可以作为入门的一手知识,越精简越好。 问题:能否请老师推荐或者总结归纳下入门AI或者大语言模型的最小基础知识是哪些?(李笑来老师提过的入门一个新领域的MAKE [Minimal Actionable Knowledge and Experience]) 可能上面的问题有点大,我再缩小下,我的目的不是转行AI领域开发,而是得心应手的使用AI大语言模型开发自己的应用或者提高工作效率,比如使用AI做些财务建议、投研之类的应用。我总觉得只是会调接口,完全不理解基础概念还是无法游刃有余的使用,离开课程,就很难有思路做自主开发了。 说的有点啰嗦了,感谢老师!

    作者回复: 想要入门可以看一下 吴恩达 老师的 deeplearning.ai 的课程,根据自己的需要从 beginner 级别的看起。但是这些也是需要一定的时间的,以及了解一定程度的原理。公式可以囫囵吞枣,作业都写完就OK了。

    2023-04-24归属地:澳大利亚
    2
    12
  • John
    这个paddleBoBo都一年没更新啦 还有没有平替或者潜在新产品呢

    作者回复: PaddleBobo其实没有几行代码,本质上就是 Deepfake类的GAN的解决方案,开源的GAN的库都可以看看是否适合作为平替。

    2023-04-24归属地:加拿大
    2
    3
  • abc🙂
    老师,如果想要AI学习我的写作风格,按照我的风格写作,要怎么训练呢?

    作者回复: 用18讲fine-tune的方式,输入大量你自己写作的语料 但是fine-tune对于数据量还是有一定要求的,至少有个500篇的文章才有一定效果吧。

    2023-04-25归属地:福建
    2
    1
  • John
    现在HeyGen不错 就是收费不低

    作者回复: 嗯,现在数字人类的产品都不便宜

    2023-04-24归属地:加拿大
    1
  • 劉仲仲
    出现error:module 'pexpect' has no attribute 'spawn',已经是最新的pexpect

    作者回复: PaddleGAN应该还不支持windows

    2023-04-28归属地:广东
    2
  • 粉墨之下
    本地运行后,回复时报错:Retrying langchain.llms.openai.completion_with_retry.<locals>._completion_with_retry in 4.0 seconds as it raised APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host='api.openai.com', port=443): Max retries exceeded with url: /v1/completions (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x000001F9C7DAD670>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。')).

    作者回复: 大概率是神奇的网络访问问题,这个需要自己想办法解决啦,或者直接通过Colab环境来运行。

    2023-04-24归属地:甘肃
  • 一叶
    刚看了下,这个did的价格不是一般的贵....

    作者回复: 对,国内的数字人现在报价也比较贵,有数据的话,自己通过GAN来做梗合适一些。

    2023-04-24归属地:福建
    2
  • 小理想。
    txt = gr.Textbox(show_label=False, placeholder="Enter text and press enter").style(container=False) 官网文档也都没有.style(container=False)
    2023-11-09归属地:北京
  • 小理想。
    audio = gr.Audio(source="microphone", type="filepath") 老师这段代码没有source属性,这个属性是sources才可以,可能写错了哈哈哈 audio=gr.Audio(sources="microphone", type="filepath")
    2023-11-09归属地:北京
  • 小理想。
    https://cdn.discordapp.com/attachments/1065596492796153856/1095617463112187984/John_Carmack_Potrait_668a7a8d-1bb0-427d-8655-d32517f6583d.png 老师这个地址访问不了,是不是我需要把文件下载下来自己映射一下哈
    2023-11-07归属地:北京
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部