26｜Visual ChatGPT是如何做到边聊边画的？

徐文浩



该思维导图由 AI 生成，仅供参考

你好，我是徐文浩。
过去三讲里，我们分别体验了 CLIP、Stable Diffusion 和 ControlNet 这三个模型。我们用这些模型来识别图片的内容，或者通过输入一段文本指令来画图。这些模型都是所谓的多模态模型，能够把图片和文本信息联系在一起。
不过，如果我们不仅仅是要随便找几个关键词画两张画玩个票，而是要在实际的工作环境里生成能用的图片，那么现在的体验还是远远不够的。对于画出来的图我们总有各种各样的修改和编辑的需求。比如，我们总是会遇到各个团队的人对着设计师的图指手画脚地提出各种各样的意见：“能不能把小狗移到图片的右边？”“能不能把背景从草地改成森林？”“我想要一个色彩斑斓的黑。”等等。
所以，理想中的 AI 画画的功能，最好还能配上一个听得懂人话的 AI，能够根据我们这些外行的指手画脚来修改生成的图片。针对这个需求，我们就来介绍一下微软开源的 Visual ChatGPT。
和之前我们自己写代码不同，这一讲我们一起来读一读 Visual ChatGPT 这个开源项目的代码，看看它是如何做到能让我们聊着天就把图片给修改完了的。
体验 Visual ChatGPT我们先来体验一下 Visual ChatGPT 的效果是怎么样的。这一次，Colab 里的 GPU 也不够我们用了。Visual ChatGPT 要加载很多个不同的图片相关的模型，这些模型加起来的显存得有 40GB 以上。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Visual ChatGPT是一种结合了文本和图像处理的多模态模型，通过对话来编辑和修改图片。该模型使用LangChain的ReAct Agent模式，将图像处理的视觉基础模型封装成工具，并通过ChatGPT进行交互。读者可以通过微软提供的Space功能体验Visual ChatGPT的功能，也可以部署自己的Space来避免等待时间。通过对话框输入文本指令，Visual ChatGPT可以完成诸如画图、修改图片风格、描述图片内容等任务，大大提升了使用AI画画的实际体验。文章还介绍了Visual ChatGPT的原理与实现，以及其调用入口的代码。Visual ChatGPT通过结合文本和图像处理，实现了通过对话来编辑和修改图片的功能，为用户提供了更加便捷的使用体验。文章还介绍了Visual ChatGPT的原理与实现，以及其调用入口的代码。Visual ChatGPT通过结合文本和图像处理，实现了通过对话来编辑和修改图片的功能，为用户提供了更加便捷的使用体验。文章还介绍了Visual ChatGPT的原理与实现，以及其调用入口的代码。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型之美》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(6)

最新
精选

Toni
人工智能的快速发展带来各类相关模型的数量爆炸性增长，选择的多样性使得应用者总能挑选出几样趁手的工具，但同时也带来了一大痛点，哪个模型是最好的呢? Visual ChatGPT 的核心板块"任务矩阵"(Task Matrix)就是想为客户自动选出适合解决任务的模型。诚如论文的作者指出的"TaskMatrix.AI 可以理解这些 API 并学习新的 API，然后根据用户说明推荐合适的API。作者举例中的用对话的形式帮助用户生成 PPT, 并根据要求不断修改，展示了 TaskMatrix.AI 方便之处，过程流畅，但实际上这里隐含了一个前提，即用户的问题非常明确，比如: "对于每家公司，让我们创建一张幻灯片来介绍它的创始人、位置、使命、产品、子公司" (Fig.6, 7)，在这样的情况下，TaskMatrix.AI 能给出准确的反应; 还有 Fig.3 的绘图任务，Fig.9 的智能家居场景也是如此。 ChatGPT3.5 以后的版本 AI 能够表现出很强的"推理能力"，这一能力本质是将自然语言中的'字'，'语义'，'句子'，'位置'，'段落' 等，经过大量的监督的无监督的"阅读学习"，在映射的高维空间中不断调整优化所形成的不断"进化"的模型，然后根据人们给出的问题或曰提示，"猜出"或称"推断出"后面的意思。通常情况下 AI有亮丽的表现，虽然不免夸夸其谈。但这带来 AI 另一大痛点，它不能对不清楚的问题进行反问。比如在用户提出这样的问题时:"你知道如何从头开始写一篇文章并提供给我一个解决方案大纲？我有几篇论文的截止日期。我只有题目以及每个的一些要点。最好在其中包含图像。"(Fig.4) TaskMatrix.AI 并没有提问"你的题目是什么?"，而是直接开聊。 AI 日新月异，各种模型为应对使用痛点而生，期待。老师已先人一步用上ChatGPT4，它有反问或帮助用户捋清问题思路的能力了吗?
作者回复: GPT-4用了一段时间了，如果AutoGPT之类的流程，的确可以让AI反向和你确认问题。但是如果不是专门在Prompt里面提到，默认还是会习惯于用“遵循指令”的方式，而不是来和你澄清问题。
2023-05-10归属地：瑞士

9
王永旺
Semantic Kernel 老师有了解么，能不能也介绍一下这个项目？
作者回复: 大概看了一点点，本质上就是一个微软版本的“LangChain”，看起来在利用大语言模型的“计划能力”上有些特色。其他的功能，虽然API和Langchain有差别，但是其实本质上差异不大，一个基于LLM能力的中间层。
2023-05-10归属地：日本

2
yu
剛看完先留言：先讓他判斷用戶的語言，然後翻譯成英文處理。
作者回复: 对，这的确是一个更加通用的办法。
2023-05-16归属地：美国


peter
请教老师：网站想提供几首歌，是否有合适的软件能实现？即用软件唱歌，声音随便，用人声或机器自己产生的声音都可以。不仅仅限于chatGPT；如果chatGPT没有该功能，是否有其他软件能实现？
作者回复: https://github.com/svc-develop-team/so-vits-svc
2023-05-10归属地：北京


金
有编辑音频的chatgpt吗？最近ai孙燕姿很火，效果也不错，但是跟本人唱的还是差一些东西，旋律比较平，有办法调教吗？
作者回复: AI孙燕姿来自于 https://github.com/svc-develop-team/so-vits-svc 这开源项目下根据数据训练出来的调教可能要熟悉音乐领域知识的朋友们会有更好的idea，我是个音盲
2023-05-10归属地：广东


张开元
Visual ChatGPT的计算量和效果怎么样能平衡？
2023-09-15归属地：北京



收起评论