作者回复: 你好。这句话的意思是,SDXL没有直接用此前的VAE模型权重,而是复用相同架构,对VAE进行了模型重训(也就是我们VAE那一讲提到的重训VAE),以提升VAE重建的效果。感谢你的反馈。
作者回复: 你好。这里可能有一个误解,那就是在训练和测试阶段,我们都可以使用多个不同prompt进行文生图(也就是batch)。我们课程中用到的AI绘画模型都不是自回归模型(比如Parti就是自回归模型)。对于扩散模型而言,从纯噪声逐步去噪得到图像,UNet模型的输入包括上一步噪声图、prompt文本表征和时间步t的编码,噪声图初值不同、prompt文本表征不同,UNet预测的噪声自然不同。整个过程是可以按照batch的维度并行的。
作者回复: 你好。第一个问题,深度学习模型推理主要用到的是线性代数(比如矩阵运算、LoRA秩因子分解)、微积分(比如反向传播)的知识,扩散模型的理论推导还需要用到一些概率论的相关知识。第二个问题,对于DALL-E 2和SD Reimagine的图像变体而言,本质上仍旧是扩散模型的AI绘画过程,由于随机噪声的存在,每次生成的结果是不同的。如果希望结果相同,需要固定中随机种子参数。希望能够帮助到你。
作者回复: 你好。是的,看了下,当前最新的WebUI中已经可以使用SDXL和SD图像变体了。
作者回复: 你好。围绕SDXL,我们更多地是探讨背后算法原理和基本使用,课程中我们使用ClipDrop和Colab来体验,ComfyUI不在我们的课程范围内。感谢你的反馈。