21|DID和PaddleGAN:表情生动的数字人播报员
徐文浩
该思维导图由 AI 生成,仅供参考
你好,我是徐文浩。
上一讲里,我们已经学会了通过 AI 来进行语音合成。有了语音识别、ChatGPT,再加上这个语音合成,我们就可以做一个能和我们语音聊天的机器人了。不过光有声音还不够,我们还希望这个声音可以是某一个特定的人的声音。就好像在电影《Her》里面那样,AI 因为用了影星斯嘉丽·约翰逊的配音,也吸引到不少观众。最后,光有声音还不够,我们还希望能够有视觉上的效果,最好能够模拟自己真的在镜头面前侃侃而谈的样子。
这些需求结合在一起,就是最近市面上很火的“数字人”,也是我们这一讲要学习的内容。当然,在这么短的时间里,我们做出来的数字人的效果肯定比不上商业公司的方案。不过作为概念演示也完全够用了。
制作一个语音聊天机器人
从文本 ChatBot 起步
我们先从最简单的文本 ChatBot 起步,先来做一个和第 6 讲一样的文本聊天机器人。对应的代码逻辑和第 6 讲的 ChatGPT 应用基本一样,整个的 UI 界面也还是使用 Gradio 来创建。
唯一的区别在于,我们把原先自己封装的 Conversation 类换成了 Langchain 的 ConversationChain 来实现,并且使用了 SummaryBufferMemory。这样,我们就不需要强行设定只保留过去几轮对话了。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
利用AI技术打造数字人是本文的主题。文章介绍了如何使用AI语音合成技术和D-ID技术来制作语音聊天机器人和实现视频表情的数字人。通过示例代码展示了数字人技术的实用性和创新性。读者可以通过本文了解数字人技术的最新发展,并在本地运行体验。文章以简洁的代码和清晰的示例,展示了数字人技术的应用和实现方法。此外,文章还提到了开源项目PaddleBobo,展示了如何使用开源模型来合成口播视频。总的来说,本文为读者提供了一个全面了解数字人技术及其应用的机会,同时鼓励他们尝试使用开源项目进行数字人技术的实践和创新。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型之美》,新⼈⾸单¥68
《AI 大模型之美》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(11)
- 最新
- 精选
- 勇.Max特意赶到最新进度的文章给老师留言咨询个问题: 背景:首先,这个课程真的是干货满满,物超所值,感谢老师的辛苦、认真付出!但是,作为一个10来年经验的老码农(现在是区块链方面的架构、研发)总觉得跟得有点吃力,原因是缺少AI方面的基础知识,对课程中的一些库、算法的原理缺少基本的概念认知。当然如果只局限于”过一遍代码、熟练使用“基本是够了,但是我觉得还达不到入门级。所以,特地来请教下老师哪些可以作为入门的一手知识,越精简越好。 问题:能否请老师推荐或者总结归纳下入门AI或者大语言模型的最小基础知识是哪些?(李笑来老师提过的入门一个新领域的MAKE [Minimal Actionable Knowledge and Experience]) 可能上面的问题有点大,我再缩小下,我的目的不是转行AI领域开发,而是得心应手的使用AI大语言模型开发自己的应用或者提高工作效率,比如使用AI做些财务建议、投研之类的应用。我总觉得只是会调接口,完全不理解基础概念还是无法游刃有余的使用,离开课程,就很难有思路做自主开发了。 说的有点啰嗦了,感谢老师!
作者回复: 想要入门可以看一下 吴恩达 老师的 deeplearning.ai 的课程,根据自己的需要从 beginner 级别的看起。但是这些也是需要一定的时间的,以及了解一定程度的原理。公式可以囫囵吞枣,作业都写完就OK了。
2023-04-24归属地:澳大利亚212 - John这个paddleBoBo都一年没更新啦 还有没有平替或者潜在新产品呢
作者回复: PaddleBobo其实没有几行代码,本质上就是 Deepfake类的GAN的解决方案,开源的GAN的库都可以看看是否适合作为平替。
2023-04-24归属地:加拿大23 - abc🙂老师,如果想要AI学习我的写作风格,按照我的风格写作,要怎么训练呢?
作者回复: 用18讲fine-tune的方式,输入大量你自己写作的语料 但是fine-tune对于数据量还是有一定要求的,至少有个500篇的文章才有一定效果吧。
2023-04-25归属地:福建21 - John现在HeyGen不错 就是收费不低
作者回复: 嗯,现在数字人类的产品都不便宜
2023-04-24归属地:加拿大1 - 劉仲仲出现error:module 'pexpect' has no attribute 'spawn',已经是最新的pexpect
作者回复: PaddleGAN应该还不支持windows
2023-04-28归属地:广东2 - 粉墨之下本地运行后,回复时报错:Retrying langchain.llms.openai.completion_with_retry.<locals>._completion_with_retry in 4.0 seconds as it raised APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host='api.openai.com', port=443): Max retries exceeded with url: /v1/completions (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x000001F9C7DAD670>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。')).
作者回复: 大概率是神奇的网络访问问题,这个需要自己想办法解决啦,或者直接通过Colab环境来运行。
2023-04-24归属地:甘肃 - 一叶刚看了下,这个did的价格不是一般的贵....
作者回复: 对,国内的数字人现在报价也比较贵,有数据的话,自己通过GAN来做梗合适一些。
2023-04-24归属地:福建2 - 小理想。txt = gr.Textbox(show_label=False, placeholder="Enter text and press enter").style(container=False) 官网文档也都没有.style(container=False)2023-11-09归属地:北京
- 小理想。audio = gr.Audio(source="microphone", type="filepath") 老师这段代码没有source属性,这个属性是sources才可以,可能写错了哈哈哈 audio=gr.Audio(sources="microphone", type="filepath")2023-11-09归属地:北京
- 小理想。https://cdn.discordapp.com/attachments/1065596492796153856/1095617463112187984/John_Carmack_Potrait_668a7a8d-1bb0-427d-8655-d32517f6583d.png 老师这个地址访问不了,是不是我需要把文件下载下来自己映射一下哈2023-11-07归属地:北京
收起评论