AI 绘画核心技术与实战
南柯
某头部大厂图像团队技术 leader,高级算法专家
6373 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 36 讲
AI 绘画核心技术与实战
15
15
1.0x
00:00/00:00
登录|注册

16|显微镜下的Stable Diffusion(二):从图像变体到神雕侠侣(SDXL)

你好,我是南柯。
在上一讲,我们详细探讨了 Stable Diffusion 模型的核心技术,包括无分类器引导、UNet 模块构成、负向描述词原理等。
事实上,随着 AI 绘画技术的不断发展,Stable Diffusion 模型也在持续进化,比如 2023 年 6 月刚刚发布的 SDXL 模型。参考上一讲的叫法,为了方便,我们还是将 Stable Diffusion 简称为 SD。
在 SD 模型家族中,有两个具有特殊能力的模型,也就是我们今天要探讨的 SD 图像变体(Stable Diffusion Reimagine)和“神雕侠侣”(SDXL)。SD 图像变体模型用来对标 DALL-E 2 的图像变体功能,SDXL 模型则用来和 Midjourney 这个最强画师掰掰手腕。
在我看来,生成图像变体和生成通用高美感图片,是当前多数开源垂类模型都做不好的事情。所以这一讲,我们把这 SD 中的两个特殊模型单独拿出来,用显微镜分析它们的能力和背后的算法原理。理解了这些之后,也会给我们向自己的 SD 模型引入新能力带来启发。

SD 图像变体

你是否还记得,在关于 DALL-E 2 的解读中(可以回顾第 13 讲内容),我们提到了一种名为图像变体的图像生成策略。
我带你快速回忆一下这个策略的设计理念。用户输入一张图像,使用 CLIP 的图像编码器提取图像表征作为图像解码器的输入,这样就实现了生成图像变体的能力。图像变体能力在实际工作中能快速生成相似图像效果,激发我们的设计灵感。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

SD系列模型家族中的两个特殊模型,SD图像变体和SDXL模型,展现了其持续进化的能力。SD图像变体模型通过提取输入图像信息,实现了生成具有相似内容但不同样式的图像的能力,与DALL-E 2的图像变体功能类似。相比标准SD模型,SD图像变体模型是一个全新的SD模型,其官方名称为Stable unCLIP 2.1,属于unCLIP模型的扩展版。该模型利用CLIP图像编码器提取图像表征,通过扩散模型解码器生成变体图像。SDXL模型则是SD系列的最新成员,采用级联模型的方式完成图像生成,使用了更大的UNet模型和更强的文本编码器,以及引入了Refiner模型,进一步提升了AI绘画的效果。SDXL模型的技术细节和使用方法也得到了详细介绍,为读者提供了深入了解和使用该模型的指引。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 绘画核心技术与实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(9)

  • 最新
  • 精选
  • Wiliam
    老师,能从原理上解释一下为什么加入Refiner 模型之后,效果能更好呢?

    作者回复: 你好。Base模型可以看作是一个文生图的过程,而Refiner模型则是图生图的过程。Refiner模型相比于Base模型的生成效果有一定提升,但这里的评估其实比较主观,论文中也是通过user study来统计的。究其原因,Base模型在所有数据上训练,偶尔会生成低质量人类、粗糙背景等,所以引入Refiner模型,原论文中说的是使用high-quality, high resolution数据训练,因此Refiner模型的作用类似于使用图生图来修复细节。希望能帮助到你。

    2023-09-29归属地:福建
    2
  • zhihai.tu
    目前最新版本的webui中,这两个特殊模型是否已经集成进去了啊?

    作者回复: 你好。是的,看了下,当前最新的WebUI中已经可以使用SDXL和SD图像变体了。

    2023-08-23归属地:新加坡
    1
  • Geek_55d08a
    "SDXL 模型没有沿用 SD1.x 和 SD2.x 模型中使用的 VAE 模型,而是基于同样的模型架构," 这句话是有笔误么?

    作者回复: 你好。这句话的意思是,SDXL没有直接用此前的VAE模型权重,而是复用相同架构,对VAE进行了模型重训(也就是我们VAE那一讲提到的重训VAE),以提升VAE重建的效果。感谢你的反馈。

    2023-09-05归属地:广东
  • Seeyo
    老师请问一下,关于batch处理的问题。 测试阶段: 1、我目前的理解是不能用batch进行不同text prompt对应图片的处理,是因scheduler的处理方式是自回归吗? 2、当使用相同的promot时,因为webui支持批量生成,为什么此时可以使用batch的生成方式?虽然text产生的embedding相同,但每个推理时刻,产生的x_t-1是不一样的。 训练阶段: 要使用ddpm采样器,为什么能使用batch训练呢? 以上是目前的个人理解,期待老师的回答指正

    作者回复: 你好。这里可能有一个误解,那就是在训练和测试阶段,我们都可以使用多个不同prompt进行文生图(也就是batch)。我们课程中用到的AI绘画模型都不是自回归模型(比如Parti就是自回归模型)。对于扩散模型而言,从纯噪声逐步去噪得到图像,UNet模型的输入包括上一步噪声图、prompt文本表征和时间步t的编码,噪声图初值不同、prompt文本表征不同,UNet预测的噪声自然不同。整个过程是可以按照batch的维度并行的。

    2023-09-04归属地:上海
  • peter
    请教老师两个问题: Q1:模型的数学推导主要用哪些方面的知识?微积分吗? Q2:图像变体每次运行的结果都是不同的吗?

    作者回复: 你好。第一个问题,深度学习模型推理主要用到的是线性代数(比如矩阵运算、LoRA秩因子分解)、微积分(比如反向传播)的知识,扩散模型的理论推导还需要用到一些概率论的相关知识。第二个问题,对于DALL-E 2和SD Reimagine的图像变体而言,本质上仍旧是扩散模型的AI绘画过程,由于随机噪声的存在,每次生成的结果是不同的。如果希望结果相同,需要固定中随机种子参数。希望能够帮助到你。

    2023-08-24归属地:北京
  • 海杰
    老师,既然提到SDXL, 会讲下ComfyUI 的使用吗?

    作者回复: 你好。围绕SDXL,我们更多地是探讨背后算法原理和基本使用,课程中我们使用ClipDrop和Colab来体验,ComfyUI不在我们的课程范围内。感谢你的反馈。

    2023-08-23归属地:新加坡
  • YX
    SDXL 更进一步,使用了两个文本编码器,分别是 OpenCLIP 的 ViT-G/14 模型(参数量 694M)和 OpenAI 的 ViT-L/14 模型。在实际使用中,分别提取这两个文本编码器倒数第二层的特征,将 1280 维特征(Vit-G/14)和 768 维特征(ViT-L/14)进行拼接,得到 2048 维度的文本表征。 ------ 老师请问下,这句话是不是意味着对于SDXL模型,clip skip可以不需要再设置了呢
    2024-02-12归属地:云南
  • Charles
    老师,怎么实现将中文嵌入图片中呢?这些都是只支持英文的,对中文不友好。 比如:生日卡片,有气球和生日蛋糕,卡片上写着“XX生日快乐”
    2023-10-27归属地:上海
    1
  • Wiliam
    老师,能从原理上解释一下,为什么引入了Refiner 模型,效果能更好呢?
    2023-09-29归属地:福建
收起评论
显示
设置
留言
9
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部