AI 绘画核心技术与实战

方华Elton

感谢老师的分享，感谢极客邦科技提供这样一个平台，非常干货，真的是对开发者时间的尊重。老师的专栏内容比较系统，但是感觉大家也不用有太大学习负担，尤其技术背景薄弱的小伙伴，还是取自己所需。之前学习一个专栏老师的分享的经验，“一件事儿之所以觉得难，一方面是看不清本质，一方面是看不清全貌。” 相信大家通过学习南柯老师的AI绘画专栏，都可以看清AI绘画的本质和全貌。

2024-01-06

1

互联网砖瓦匠

我感觉这些原理我看了顶多是做个了解了数学渣渣哈哈。

作者回复：你好，为了降低理解难度，我们跳过了很多数学推导。如果不是相关算法从业者，只需要了解整体思路、清楚扩散模型和GAN是不同的算法原理即可。希望能帮助到你。

2023-09-04



Toni

包括ControlNet 在内的AI绘画工具越来越多，但AI绘画结果需要人工抽取结果的痛点依在。现在AI 绘画的流程如下: 1. 先有个想画的想法， 2. 根据这个想法编出个prompt 输给AI 绘画工具， 3. AI绘画工具生成多张图片比如说4张供人参考， 4. 人们再依据上面步骤1中的想象，从出的4张图里面选出合意的，如不甚满意，就继续上面的步骤2改变prompt，然后再执行步骤3，让AI重新绘图，这过程可能会进行好几轮，比较费时。那么问题来了，有没有什么方法让上面的过程自动化? 计算机的优势就是不知疲惫，虽然有时也宕机罢工，但总体来说比人能干。如果能将上面成图+判断的过程先交给计算机进行5轮，然后再由人类对出图给出评估，效率会提高很多，图的质量也会更高。解决上面痛点的思考之一是设计一个质量控制层 QualityControlNet，这个可训练的质量控制层应包含下面的一些功能: 1. 有对图像质量评估的量化指标，可选艺术，技术，美学等几个方面做为评估参量，指标可调可变， 2. 有对正反prompt修正反馈的能力， 3. 要修正的图像+新的更改要求可以自动返回低维隐藏层，并启动重绘过程， 4. 能自动求解最佳重绘参数，最佳去噪步骤等参量。达到上面要求中的一个或几个，对质量控制层 QualityControlNet 的一些想法，大家补充。

作者回复：这个想法非常有趣。QualityControlNet其实可以理解为一个美学打分模型，很多大厂优化SD模型的第一步就是训练美学打分模型，不过目的是从海量数据中进行筛选。回到你这个想法，我们可以引入美学打分模型和ChatGPT，美学模型负责形成分数反馈，ChatGPT负责优化文生图参数和prompt。凭借这种方式反复迭代，得到更好的效果。不过，这里需要给ChatGPT一些示例，让ChatGPT明白自己需要做啥。很有意思的idea，欢迎继续探讨~

2023-09-05

2

Seeyo

老师请问一下，关于batch处理的问题。测试阶段： 1、我目前的理解是不能用batch进行不同text prompt对应图片的处理，是因scheduler的处理方式是自回归吗？ 2、当使用相同的promot时，因为webui支持批量生成，为什么此时可以使用batch的生成方式？虽然text产生的embedding相同，但每个推理时刻，产生的x_t-1是不一样的。训练阶段：要使用ddpm采样器，为什么能使用batch训练呢？以上是目前的个人理解，期待老师的回答指正

作者回复：你好。这里可能有一个误解，那就是在训练和测试阶段，我们都可以使用多个不同prompt进行文生图（也就是batch）。我们课程中用到的AI绘画模型都不是自回归模型（比如Parti就是自回归模型）。对于扩散模型而言，从纯噪声逐步去噪得到图像，UNet模型的输入包括上一步噪声图、prompt文本表征和时间步t的编码，噪声图初值不同、prompt文本表征不同，UNet预测的噪声自然不同。整个过程是可以按照batch的维度并行的。

2023-09-04



西柊慧音

图像补全是把图切割成若干个像素块，类似拼图，通过对某一个格和周边格子的逻辑关联做填充？

作者回复：你好。图像补全（inpainting）这个操作和图生图整体思路一致。先说共同点，需要使用 VAE 编码器将输入图像编码为潜在表示，然后通过重绘强度添加噪声，再进行去噪生成图像。再说不同点，对于图像补全这个任务，为了保证 mask 之外的区域不发生变化，在加噪过程中，我们需要保留每一步的加噪结果。在去噪过程中，针对补全区域外的部分，需要用保留的加噪结果替换掉经过扩散模型预测得到的结果，保证 AI 绘画的过程仅作用于待补全区域。希望能帮助到你。

2023-09-14



Geek_7ce725

针对25讲中如何生成文字，我有一个想法通过chat抽无用户prompt中想要显示的文本内容，然后随机选择一款字体，生成对应的mask，基于controlnet技术对mask渲染，然后再去除result image 中 mask之外的内容获得一张艺术字png

作者回复：你好，这个想法很有趣，方案上也是完全可行的。欢迎将想法付诸实践👍🏻~

2023-09-15

1

意

倾向于是 GPT 统一掉 AI 绘画。这件事情的标志是什么呢？我觉得应该是出现这样一个模型，它的输入是文字和图片，输出是离散化的 token。 ============== 老师的预测，这么快就到来啦！

作者回复：是的，从最近OpenAI、Meta等公司的最新工作来看，基于扩散模型的AI绘画很有可能是昙花一现，期待token化建模统一掉图像理解和图像生成两个任务。

2023-09-30



王大叶

老师好，请教两个问题： 1. 对于人像 LoRA 的训练，精细化的打标是否有必要，对 LoRA 质量的影响会很大吗？ 2. 实验发现用 deepbooru 给写实人像打标不是很准确，比如经常会把男性图片标注成 1girl，用 BLIP 打标信息又比较少，无法完全涵盖画面的内容。请教人像 LoRA 训练有什么推荐的打标方法吗？

作者回复：你好。针对第一个问题，我的看法是精细化打标不是很有必要，只需要保证发型、眼镜、服饰颜色这些最基本的信息被涵盖即可，很多时候训练人像LoRA的Prompt甚至是“A photo of a <sks> man”这种粗糙的描述。针对第二个问题，把男性图片标注成 1girl是由于DeepDanbooru的分类精度不够导致的，Midjourney有一个描述功能，写出的Prompt比较准确、信息也比较丰富，可以试试。也可以试试Qwen-VL这种多模态大模型的Caption效果，应该也不错。希望能帮助到你。

2023-09-13

1

Geek_7401d2

老师你好，看完后还是不知道如何入手训练，有几个问题 1、选择素材图片时要用多少张，什么样的图片合适，比方说训练某个人物的Lora时，选择该人的图片时要选择什么样的，全身照、半身照、面部特写等各占多少合适 2、Lora 模型训练多少轮（num_epochs）合适 3、训练完会有多个Lora模型，选择哪一个呢，选最后一轮训练的吗 4、我理解训练lora模型的原理是一样的，为什么同样的素材、用同样的基础模型，用不同的代码会出现不同的训练效果，文中用到的这两个代码库差异在哪呢

作者回复：你好。针对问题1，以人物LoRA为例，我的经验是以半身照为主，可以混合一些全身照和面部特写，不用混合很多。图片的数量越多越好，推荐不少于10张。针对问题2，训练步数可以根据效果来定，一般而言，300-500步效果会比较好，训练步数过多模型会出现过拟合，多样性能力会变差。针对问题3，咱们代码中有可视化看每一轮次的训练效果，可以挑选一个效果好的模型。一般来说，选择300-500步训练后的模型，不要选择步数太少的模型。针对问题4，diffusers的代码中可调整的参数非常少，数据增广较少、text_encoder学习率等指标设置也不够灵活等。对于开发者而言，可以以diffusers代码仓为基础，逐渐把这些特性加进去，模型的效果会有提升。希望能帮助到你。

2023-08-31

4

Chengfei.Xu

输入、消化、输出，费曼主动学习法，于个人深入吸收知识只效率高，但极大多数人并没有这个长远的耐心。很庆幸能够遇到作者，遇到专栏，一起加油！

2023-10-13



讲师

南柯

某头部大厂图像团队技术 leader，高级算法专家

南柯，某头部大厂图像团队技术 leader，高级算法专家。目前在某头部大厂工作，带领团队推动多模态大模型领域的能力建设。长期活跃于 AI 绘画技术领域，对 AIGC 内容生成、数字人技术（AI 捏脸、数字人驱动）、传统图像、深度学习相关的图像技术（目标检测、分割、分类、...查看更多

南柯

某头部大厂图像团队技术 leader，高级算法专家

AI大模型前沿知识