16|显微镜下的Stable Diffusion(二):从图像变体到神雕侠侣(SDXL)
SD 图像变体
- 深入了解
- 翻译
- 解释
- 总结
SD系列模型家族中的两个特殊模型,SD图像变体和SDXL模型,展现了其持续进化的能力。SD图像变体模型通过提取输入图像信息,实现了生成具有相似内容但不同样式的图像的能力,与DALL-E 2的图像变体功能类似。相比标准SD模型,SD图像变体模型是一个全新的SD模型,其官方名称为Stable unCLIP 2.1,属于unCLIP模型的扩展版。该模型利用CLIP图像编码器提取图像表征,通过扩散模型解码器生成变体图像。SDXL模型则是SD系列的最新成员,采用级联模型的方式完成图像生成,使用了更大的UNet模型和更强的文本编码器,以及引入了Refiner模型,进一步提升了AI绘画的效果。SDXL模型的技术细节和使用方法也得到了详细介绍,为读者提供了深入了解和使用该模型的指引。
《AI 绘画核心技术与实战》,新⼈⾸单¥59
全部留言(9)
- 最新
- 精选
- Wiliam老师,能从原理上解释一下为什么加入Refiner 模型之后,效果能更好呢?
作者回复: 你好。Base模型可以看作是一个文生图的过程,而Refiner模型则是图生图的过程。Refiner模型相比于Base模型的生成效果有一定提升,但这里的评估其实比较主观,论文中也是通过user study来统计的。究其原因,Base模型在所有数据上训练,偶尔会生成低质量人类、粗糙背景等,所以引入Refiner模型,原论文中说的是使用high-quality, high resolution数据训练,因此Refiner模型的作用类似于使用图生图来修复细节。希望能帮助到你。
2023-09-29归属地:福建2 - zhihai.tu目前最新版本的webui中,这两个特殊模型是否已经集成进去了啊?
作者回复: 你好。是的,看了下,当前最新的WebUI中已经可以使用SDXL和SD图像变体了。
2023-08-23归属地:新加坡1 - Geek_55d08a"SDXL 模型没有沿用 SD1.x 和 SD2.x 模型中使用的 VAE 模型,而是基于同样的模型架构," 这句话是有笔误么?
作者回复: 你好。这句话的意思是,SDXL没有直接用此前的VAE模型权重,而是复用相同架构,对VAE进行了模型重训(也就是我们VAE那一讲提到的重训VAE),以提升VAE重建的效果。感谢你的反馈。
2023-09-05归属地:广东 - Seeyo老师请问一下,关于batch处理的问题。 测试阶段: 1、我目前的理解是不能用batch进行不同text prompt对应图片的处理,是因scheduler的处理方式是自回归吗? 2、当使用相同的promot时,因为webui支持批量生成,为什么此时可以使用batch的生成方式?虽然text产生的embedding相同,但每个推理时刻,产生的x_t-1是不一样的。 训练阶段: 要使用ddpm采样器,为什么能使用batch训练呢? 以上是目前的个人理解,期待老师的回答指正
作者回复: 你好。这里可能有一个误解,那就是在训练和测试阶段,我们都可以使用多个不同prompt进行文生图(也就是batch)。我们课程中用到的AI绘画模型都不是自回归模型(比如Parti就是自回归模型)。对于扩散模型而言,从纯噪声逐步去噪得到图像,UNet模型的输入包括上一步噪声图、prompt文本表征和时间步t的编码,噪声图初值不同、prompt文本表征不同,UNet预测的噪声自然不同。整个过程是可以按照batch的维度并行的。
2023-09-04归属地:上海 - peter请教老师两个问题: Q1:模型的数学推导主要用哪些方面的知识?微积分吗? Q2:图像变体每次运行的结果都是不同的吗?
作者回复: 你好。第一个问题,深度学习模型推理主要用到的是线性代数(比如矩阵运算、LoRA秩因子分解)、微积分(比如反向传播)的知识,扩散模型的理论推导还需要用到一些概率论的相关知识。第二个问题,对于DALL-E 2和SD Reimagine的图像变体而言,本质上仍旧是扩散模型的AI绘画过程,由于随机噪声的存在,每次生成的结果是不同的。如果希望结果相同,需要固定中随机种子参数。希望能够帮助到你。
2023-08-24归属地:北京 - 海杰老师,既然提到SDXL, 会讲下ComfyUI 的使用吗?
作者回复: 你好。围绕SDXL,我们更多地是探讨背后算法原理和基本使用,课程中我们使用ClipDrop和Colab来体验,ComfyUI不在我们的课程范围内。感谢你的反馈。
2023-08-23归属地:新加坡 - YXSDXL 更进一步,使用了两个文本编码器,分别是 OpenCLIP 的 ViT-G/14 模型(参数量 694M)和 OpenAI 的 ViT-L/14 模型。在实际使用中,分别提取这两个文本编码器倒数第二层的特征,将 1280 维特征(Vit-G/14)和 768 维特征(ViT-L/14)进行拼接,得到 2048 维度的文本表征。 ------ 老师请问下,这句话是不是意味着对于SDXL模型,clip skip可以不需要再设置了呢2024-02-12归属地:云南
- Charles老师,怎么实现将中文嵌入图片中呢?这些都是只支持英文的,对中文不友好。 比如:生日卡片,有气球和生日蛋糕,卡片上写着“XX生日快乐”2023-10-27归属地:上海1
- Wiliam老师,能从原理上解释一下,为什么引入了Refiner 模型,效果能更好呢?2023-09-29归属地:福建