作者回复: 你好。关于Q1,在SD中CLIP的作用是对prompt进行编码,文生图用CLIP文本编码器,这样的理解是准确的。图生图img2img并不会用到图像编码器,而是直接在图像中加入噪声然后按照SD流程进行去噪,去噪过程仍然使用CLIP文本编码器做引导。针对Q2,CLIP Skip设置为2这个知识点,在第16讲会展开讨论,本质上是使用CLIP文本编码器倒数第二层的特征而不是最后一层特征,这样做的原因是由于CLIP的训练方式导致最后一层特征更靠近训练的图像数据,从而对prompt的表达能力变弱。实操经验是使用倒数第二层特征能让模型更听话、文生图效果更好。针对Q3,我们下载的各种SD基础模型中,包含CLIP、VAE、UNet等模型的权重。不同SD中用到的CLIP可能不同,比如SD1.x和SD2.x、SDXL中用的CLIP就不一样。希望能帮助到你。
作者回复: 你好。CLIP和OpenCLIP模型无法推断图片的prompt,如果想得到图像prompt,需要使用BLIP这类文本生成模型,可以参考这个链接:https://huggingface.co/spaces/Salesforce/BLIP。希望能帮助到你。
作者回复: 你好。针对Q1,动图是生成多张图片直接合成GIF图片,可以用一些工具或者python代码来实现。针对Q2,512维度是经验值,比如OpenCLIP一个较大的模型,这个数值可以是1280。针对Q3,4亿图文对不建议存储到个人电脑,当然OpenAI的数据也没有开源。如果需要复现CLIP论文可以使用LAION开源的400M数据。一张显卡无法训练CLIP,需要多机多卡并行来做。对于我们而言,更多需要关注CLIP的使用即可,可以根据课程中的Colab来操作。针对Q4,可以使用CPU模式运行CLIP的推理,这样便可以运行课程的例子。希望能够帮助到你。
编辑回复: 优秀,后面还有更多实战和作业,继续练习呀,参与越多收获越大,加油~