AI 绘画核心技术与实战
南柯
某头部大厂图像团队技术 leader,高级算法专家
6373 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 36 讲
AI 绘画核心技术与实战
15
15
1.0x
00:00/00:00
登录|注册

15|显微镜下的Stable Diffusion(一):惊艳效果下的关键技术揭秘

你好,我是南柯。
我们之前已经学习了 Stable Diffusion 的核心组成模块,比如 CLIP、VAE、UNet、注意力机制、采样器等等。在第二个实战项目(可以回顾 12 讲复习),我们已经动手训练了自己的扩散模型,也基于基础模型微调了我们自己的 Stable Diffusion。
为了方便表述,后面我们就用 SD 指代 Stable Diffusion。对于我们来说,SD 已经不再是黑盒子了。但其实除了我们已经知道的内容,SD 能够生成精美构图的背后,还有很多黑魔法在起作用。
今天,我会带你尝试用“显微镜”解析 SD,深入探索其中的技术细节,比如文本引导的原理、注意力机制的实现细节等。学完这一讲,你会对 SD 的工作原理有更深刻和全面的理解,并将这些知识灵活地应用到你自己的项目中。

SD 模型的演化之路

你也许在社交媒体或者 Hugging Face 等论坛上,看到过各种各样的 SD 模型版本,从早期的 SD1.4 到近期的 SDXL 1.0。SD 版本号演化的背后,其实是技术路线的改变或者训练数据的优化,搞清楚 SD 的演化路径能帮助我们理解 AI 绘画的发展趋势。
当前开源社区流行的 SD 模型有多个版本,比如 SD1.4、SD1.5、SD2.0、SD2.1、SD Reimagine、SDXL 等。表面看起来眼花缭乱,但其实这些模型之间存在或多或少的“亲缘关系”。你可以点开下面的图,看一下这些模型的演化历程。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

AI绘画模型中的关键技术参数和操作方法对于生成高质量图像具有重要作用。本文介绍了Stable Diffusion(SD)模型的技术细节,包括反向描述词和CLIP Skip等关键操作。通过使用反向描述词,模型可以避免生成不需要的内容,而设置CLIP Skip参数为2则能够获得更接近原始文本的特征。文章还探讨了SD模型的文本引导原理、注意力机制、图生图的计算过程等内容。此外,文章提到了SD模型在图像补全方面的常见用法,并鼓励读者思考这一功能的实现方式。通过深入剖析SD模型的技术原理,读者可以更好地理解其操作原则,并将这些知识应用到实际项目中。文章内容丰富,为读者提供了全面的技术视角,有助于加深对AI绘画模型的理解和应用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 绘画核心技术与实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 西柊慧音
    图像补全是把图切割成若干个像素块,类似拼图,通过对某一个格和周边格子的逻辑关联做填充?

    作者回复: 你好。图像补全(inpainting)这个操作和图生图整体思路一致。先说共同点,需要使用 VAE 编码器将输入图像编码为潜在表示,然后通过重绘强度添加噪声,再进行去噪生成图像。再说不同点,对于图像补全这个任务,为了保证 mask 之外的区域不发生变化,在加噪过程中,我们需要保留每一步的加噪结果。在去噪过程中,针对补全区域外的部分,需要用保留的加噪结果替换掉经过扩散模型预测得到的结果,保证 AI 绘画的过程仅作用于待补全区域。希望能帮助到你。

    2023-09-14归属地:上海
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部