方华Elton
感谢老师的分享,感谢极客邦科技提供这样一个平台,非常干货,真的是对开发者时间的尊重。
老师的专栏内容比较系统,但是感觉大家也不用有太大学习负担,尤其技术背景薄弱的小伙伴,还是取自己所需。
之前学习一个专栏老师的分享的经验,“一件事儿之所以觉得难,一方面是看不清本质,一方面是看不清全貌。”
相信大家通过学习南柯老师的AI绘画专栏,都可以看清AI绘画的本质和全貌。
2024-01-06
1
互联网砖瓦匠
我感觉这些原理我看了顶多是做个了解了 数学渣渣 哈哈。
作者回复:你好,为了降低理解难度,我们跳过了很多数学推导。如果不是相关算法从业者,只需要了解整体思路、清楚扩散模型和GAN是不同的算法原理即可。希望能帮助到你。
2023-09-04
Toni
包括ControlNet 在内的AI绘画工具越来越多,但AI绘画结果需要人工抽取结果的痛点依在。
现在AI 绘画的流程如下:
1. 先有个想画的想法,
2. 根据这个想法编出个prompt 输给AI 绘画工具,
3. AI绘画工具生成多张图片比如说4张供人参考,
4. 人们再依据上面步骤1中的想象,从出的4张图里面选出合意的,如不甚满意,就继续上面的步骤2改变prompt,然后再执行步骤3,让AI重新绘图,这过程可能会进行好几轮,比较费时。
那么问题来了,有没有什么方法让上面的过程自动化?
计算机的优势就是不知疲惫,虽然有时也宕机罢工,但总体来说比人能干。如果能将上面成图+判断的过程先交给计算机进行5轮,然后再由人类对出图给出评估,效率会提高很多,图的质量也会更高。
解决上面痛点的思考之一是设计一个质量控制层 QualityControlNet,这个可训练的质量控制层应包含下面的一些功能:
1. 有对图像质量评估的量化指标,可选艺术,技术,美学等几个方面做为评估参量,指标可调可变,
2. 有对正反prompt修正反馈的能力,
3. 要修正的图像+新的更改要求可以自动返回低维隐藏层,并启动重绘过程,
4. 能自动求解最佳重绘参数,最佳去噪步骤等参量。
达到上面要求中的一个或几个,对质量控制层 QualityControlNet 的一些想法,大家补充。
作者回复:这个想法非常有趣。QualityControlNet其实可以理解为一个美学打分模型,很多大厂优化SD模型的第一步就是训练美学打分模型,不过目的是从海量数据中进行筛选。回到你这个想法,我们可以引入美学打分模型和ChatGPT,美学模型负责形成分数反馈,ChatGPT负责优化文生图参数和prompt。凭借这种方式反复迭代,得到更好的效果。不过,这里需要给ChatGPT一些示例,让ChatGPT明白自己需要做啥。很有意思的idea,欢迎继续探讨~
2023-09-05
2
Seeyo
老师请问一下,关于batch处理的问题。
测试阶段:
1、我目前的理解是不能用batch进行不同text prompt对应图片的处理,是因scheduler的处理方式是自回归吗?
2、当使用相同的promot时,因为webui支持批量生成,为什么此时可以使用batch的生成方式?虽然text产生的embedding相同,但每个推理时刻,产生的x_t-1是不一样的。
训练阶段:
要使用ddpm采样器,为什么能使用batch训练呢?
以上是目前的个人理解,期待老师的回答指正
作者回复:你好。这里可能有一个误解,那就是在训练和测试阶段,我们都可以使用多个不同prompt进行文生图(也就是batch)。我们课程中用到的AI绘画模型都不是自回归模型(比如Parti就是自回归模型)。对于扩散模型而言,从纯噪声逐步去噪得到图像,UNet模型的输入包括上一步噪声图、prompt文本表征和时间步t的编码,噪声图初值不同、prompt文本表征不同,UNet预测的噪声自然不同。整个过程是可以按照batch的维度并行的。
2023-09-04
西柊慧音
图像补全是把图切割成若干个像素块,类似拼图,通过对某一个格和周边格子的逻辑关联做填充?
作者回复:你好。图像补全(inpainting)这个操作和图生图整体思路一致。先说共同点,需要使用 VAE 编码器将输入图像编码为潜在表示,然后通过重绘强度添加噪声,再进行去噪生成图像。再说不同点,对于图像补全这个任务,为了保证 mask 之外的区域不发生变化,在加噪过程中,我们需要保留每一步的加噪结果。在去噪过程中,针对补全区域外的部分,需要用保留的加噪结果替换掉经过扩散模型预测得到的结果,保证 AI 绘画的过程仅作用于待补全区域。希望能帮助到你。
2023-09-14
Geek_7ce725
针对25讲中 如何生成文字,我有一个想法
通过chat抽无用户prompt中想要显示的文本内容,然后随机选择一款字体,生成对应的mask,基于controlnet技术对mask渲染,然后再去除result image 中 mask之外的内容 获得一张艺术字png
作者回复:你好,这个想法很有趣,方案上也是完全可行的。欢迎将想法付诸实践👍🏻~
2023-09-15
1
意
倾向于是 GPT 统一掉 AI 绘画。这件事情的标志是什么呢?我觉得应该是出现这样一个模型,它的输入是文字和图片,输出是离散化的 token。
==============
老师的预测,这么快就到来啦!
作者回复:是的,从最近OpenAI、Meta等公司的最新工作来看,基于扩散模型的AI绘画很有可能是昙花一现,期待token化建模统一掉图像理解和图像生成两个任务。
2023-09-30
王大叶
老师好,请教两个问题:
1. 对于人像 LoRA 的训练,精细化的打标是否有必要,对 LoRA 质量的影响会很大吗?
2. 实验发现用 deepbooru 给写实人像打标不是很准确,比如经常会把男性图片标注成 1girl,用 BLIP 打标信息又比较少,无法完全涵盖画面的内容。请教人像 LoRA 训练有什么推荐的打标方法吗?
作者回复:你好。针对第一个问题,我的看法是精细化打标不是很有必要,只需要保证发型、眼镜、服饰颜色这些最基本的信息被涵盖即可,很多时候训练人像LoRA的Prompt甚至是“A photo of a <sks> man”这种粗糙的描述。针对第二个问题,把男性图片标注成 1girl是由于DeepDanbooru的分类精度不够导致的,Midjourney有一个描述功能,写出的Prompt比较准确、信息也比较丰富,可以试试。也可以试试Qwen-VL这种多模态大模型的Caption效果,应该也不错。希望能帮助到你。
2023-09-13
1
Geek_7401d2
老师你好,看完后还是不知道如何入手训练,有几个问题
1、选择素材图片时要用多少张,什么样的图片合适,比方说训练某个人物的Lora时,选择该人的图片时要选择什么样的,全身照、半身照、面部特写等各占多少合适
2、Lora 模型训练多少轮(num_epochs)合适
3、训练完会有多个Lora模型,选择哪一个呢,选最后一轮训练的吗
4、我理解训练lora模型的原理是一样的,为什么同样的素材、用同样的基础模型,用不同的代码会出现不同的训练效果,文中用到的这两个代码库差异在哪呢
作者回复:你好。针对问题1,以人物LoRA为例,我的经验是以半身照为主,可以混合一些全身照和面部特写,不用混合很多。图片的数量越多越好,推荐不少于10张。针对问题2,训练步数可以根据效果来定,一般而言,300-500步效果会比较好,训练步数过多模型会出现过拟合,多样性能力会变差。针对问题3,咱们代码中有可视化看每一轮次的训练效果,可以挑选一个效果好的模型。一般来说,选择300-500步训练后的模型,不要选择步数太少的模型。针对问题4,diffusers的代码中可调整的参数非常少,数据增广较少、text_encoder学习率等指标设置也不够灵活等。对于开发者而言,可以以diffusers代码仓为基础,逐渐把这些特性加进去,模型的效果会有提升。希望能帮助到你。
2023-08-31
4
Chengfei.Xu
输入、消化、输出,费曼主动学习法,于个人深入吸收知识只效率高,但极大多数人并没有这个长远的耐心。很庆幸能够遇到作者,遇到专栏,一起加油!
2023-10-13
编辑推荐
包含这门课的学习路径
AI大模型前沿知识
11门课程 14.2w人学习
看过的人还看了