AI 绘画核心技术与实战
8 周实现商用级图像特效 
南柯  某头部大厂图像团队技术 leader,高级算法专家
新课榜 第6名
专栏
已完结·共 36 讲
|
6404 人已学
|
收藏
方华Elton
感谢老师的分享,感谢极客邦科技提供这样一个平台,非常干货,真的是对开发者时间的尊重。 老师的专栏内容比较系统,但是感觉大家也不用有太大学习负担,尤其技术背景薄弱的小伙伴,还是取自己所需。 之前学习一个专栏老师的分享的经验,“一件事儿之所以觉得难,一方面是看不清本质,一方面是看不清全貌。” 相信大家通过学习南柯老师的AI绘画专栏,都可以看清AI绘画的本质和全貌。
2024-01-06
互联网砖瓦匠
我感觉这些原理我看了顶多是做个了解了 数学渣渣 哈哈。
作者回复:你好,为了降低理解难度,我们跳过了很多数学推导。如果不是相关算法从业者,只需要了解整体思路、清楚扩散模型和GAN是不同的算法原理即可。希望能帮助到你。
2023-09-04
Toni
包括ControlNet 在内的AI绘画工具越来越多,但AI绘画结果需要人工抽取结果的痛点依在。 现在AI 绘画的流程如下: 1. 先有个想画的想法, 2. 根据这个想法编出个prompt 输给AI 绘画工具, 3. AI绘画工具生成多张图片比如说4张供人参考, 4. 人们再依据上面步骤1中的想象,从出的4张图里面选出合意的,如不甚满意,就继续上面的步骤2改变prompt,然后再执行步骤3,让AI重新绘图,这过程可能会进行好几轮,比较费时。 那么问题来了,有没有什么方法让上面的过程自动化? 计算机的优势就是不知疲惫,虽然有时也宕机罢工,但总体来说比人能干。如果能将上面成图+判断的过程先交给计算机进行5轮,然后再由人类对出图给出评估,效率会提高很多,图的质量也会更高。 解决上面痛点的思考之一是设计一个质量控制层 QualityControlNet,这个可训练的质量控制层应包含下面的一些功能: 1. 有对图像质量评估的量化指标,可选艺术,技术,美学等几个方面做为评估参量,指标可调可变, 2. 有对正反prompt修正反馈的能力, 3. 要修正的图像+新的更改要求可以自动返回低维隐藏层,并启动重绘过程, 4. 能自动求解最佳重绘参数,最佳去噪步骤等参量。 达到上面要求中的一个或几个,对质量控制层 QualityControlNet 的一些想法,大家补充。
作者回复:这个想法非常有趣。QualityControlNet其实可以理解为一个美学打分模型,很多大厂优化SD模型的第一步就是训练美学打分模型,不过目的是从海量数据中进行筛选。回到你这个想法,我们可以引入美学打分模型和ChatGPT,美学模型负责形成分数反馈,ChatGPT负责优化文生图参数和prompt。凭借这种方式反复迭代,得到更好的效果。不过,这里需要给ChatGPT一些示例,让ChatGPT明白自己需要做啥。很有意思的idea,欢迎继续探讨~
2023-09-05
Seeyo
老师请问一下,关于batch处理的问题。 测试阶段: 1、我目前的理解是不能用batch进行不同text prompt对应图片的处理,是因scheduler的处理方式是自回归吗? 2、当使用相同的promot时,因为webui支持批量生成,为什么此时可以使用batch的生成方式?虽然text产生的embedding相同,但每个推理时刻,产生的x_t-1是不一样的。 训练阶段: 要使用ddpm采样器,为什么能使用batch训练呢? 以上是目前的个人理解,期待老师的回答指正
作者回复:你好。这里可能有一个误解,那就是在训练和测试阶段,我们都可以使用多个不同prompt进行文生图(也就是batch)。我们课程中用到的AI绘画模型都不是自回归模型(比如Parti就是自回归模型)。对于扩散模型而言,从纯噪声逐步去噪得到图像,UNet模型的输入包括上一步噪声图、prompt文本表征和时间步t的编码,噪声图初值不同、prompt文本表征不同,UNet预测的噪声自然不同。整个过程是可以按照batch的维度并行的。
2023-09-04
西柊慧音
图像补全是把图切割成若干个像素块,类似拼图,通过对某一个格和周边格子的逻辑关联做填充?
作者回复:你好。图像补全(inpainting)这个操作和图生图整体思路一致。先说共同点,需要使用 VAE 编码器将输入图像编码为潜在表示,然后通过重绘强度添加噪声,再进行去噪生成图像。再说不同点,对于图像补全这个任务,为了保证 mask 之外的区域不发生变化,在加噪过程中,我们需要保留每一步的加噪结果。在去噪过程中,针对补全区域外的部分,需要用保留的加噪结果替换掉经过扩散模型预测得到的结果,保证 AI 绘画的过程仅作用于待补全区域。希望能帮助到你。
2023-09-14
Geek_7ce725
针对25讲中 如何生成文字,我有一个想法 通过chat抽无用户prompt中想要显示的文本内容,然后随机选择一款字体,生成对应的mask,基于controlnet技术对mask渲染,然后再去除result image 中 mask之外的内容 获得一张艺术字png
作者回复:你好,这个想法很有趣,方案上也是完全可行的。欢迎将想法付诸实践👍🏻~
2023-09-15
倾向于是 GPT 统一掉 AI 绘画。这件事情的标志是什么呢?我觉得应该是出现这样一个模型,它的输入是文字和图片,输出是离散化的 token。 ============== 老师的预测,这么快就到来啦!
作者回复:是的,从最近OpenAI、Meta等公司的最新工作来看,基于扩散模型的AI绘画很有可能是昙花一现,期待token化建模统一掉图像理解和图像生成两个任务。
2023-09-30
王大叶
老师好,请教两个问题: 1. 对于人像 LoRA 的训练,精细化的打标是否有必要,对 LoRA 质量的影响会很大吗? 2. 实验发现用 deepbooru 给写实人像打标不是很准确,比如经常会把男性图片标注成 1girl,用 BLIP 打标信息又比较少,无法完全涵盖画面的内容。请教人像 LoRA 训练有什么推荐的打标方法吗?
作者回复:你好。针对第一个问题,我的看法是精细化打标不是很有必要,只需要保证发型、眼镜、服饰颜色这些最基本的信息被涵盖即可,很多时候训练人像LoRA的Prompt甚至是“A photo of a <sks> man”这种粗糙的描述。针对第二个问题,把男性图片标注成 1girl是由于DeepDanbooru的分类精度不够导致的,Midjourney有一个描述功能,写出的Prompt比较准确、信息也比较丰富,可以试试。也可以试试Qwen-VL这种多模态大模型的Caption效果,应该也不错。希望能帮助到你。
2023-09-13
Geek_7401d2
老师你好,看完后还是不知道如何入手训练,有几个问题 1、选择素材图片时要用多少张,什么样的图片合适,比方说训练某个人物的Lora时,选择该人的图片时要选择什么样的,全身照、半身照、面部特写等各占多少合适 2、Lora 模型训练多少轮(num_epochs)合适 3、训练完会有多个Lora模型,选择哪一个呢,选最后一轮训练的吗 4、我理解训练lora模型的原理是一样的,为什么同样的素材、用同样的基础模型,用不同的代码会出现不同的训练效果,文中用到的这两个代码库差异在哪呢
作者回复:你好。针对问题1,以人物LoRA为例,我的经验是以半身照为主,可以混合一些全身照和面部特写,不用混合很多。图片的数量越多越好,推荐不少于10张。针对问题2,训练步数可以根据效果来定,一般而言,300-500步效果会比较好,训练步数过多模型会出现过拟合,多样性能力会变差。针对问题3,咱们代码中有可视化看每一轮次的训练效果,可以挑选一个效果好的模型。一般来说,选择300-500步训练后的模型,不要选择步数太少的模型。针对问题4,diffusers的代码中可调整的参数非常少,数据增广较少、text_encoder学习率等指标设置也不够灵活等。对于开发者而言,可以以diffusers代码仓为基础,逐渐把这些特性加进去,模型的效果会有提升。希望能帮助到你。
2023-08-31
Chengfei.Xu
输入、消化、输出,费曼主动学习法,于个人深入吸收知识只效率高,但极大多数人并没有这个长远的耐心。很庆幸能够遇到作者,遇到专栏,一起加油!
2023-10-13
讲师

南柯

某头部大厂图像团队技术 leader,高级算法专家

南柯,某头部大厂图像团队技术 leader,高级算法专家。 目前在某头部大厂工作,带领团队推动多模态大模型领域的能力建设。长期活跃于 AI 绘画技术领域,对 AIGC 内容生成、数字人技术(AI 捏脸、数字人驱动)、传统图像、深度学习相关的图像技术(目标检测、分割、分类、...查看更多
编辑推荐
包含这门课的学习路径

AI大模型前沿知识

11门课程 14.2w人学习
看过的人还看了
AI 大模型之美
徐文浩
bothub 创始人

33讲 | 32406 人已学习

¥68¥199
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283795 人已学习

¥68¥199
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 180994 人已学习

¥98¥399
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 224927 人已学习

¥68¥199
设计模式之美
王争
前 Google 工程师,《数据结构与算法之美》专栏作者

113讲 | 123459 人已学习

¥98¥299
从 0 开始学架构
李运华
网名“华仔”,前阿里资深技术专家(P9)

66讲 | 152612 人已学习

¥68¥199