14｜挑战者Imagen：为什么会后来居上？

南柯

你好，我是南柯。
上一讲我们一起探索了 OpenAI 推出的 DALL-E 2 背后的技术原理。仅仅过去一个月，在 2022 年 5 月，Google 便发布了自己的 AI 绘画模型 Imagen。Imagen 在效果上显著优于 DALL-E 2，并且通过实验证明，只要文本模型足够大，就不再需要扩散先验模型。
一年之后，2023 年的 4 月 28 日，后来者 StabilityAI，也就是搞出来 Stable Diffusion 这个模型的公司，发布了 DeepFloyd 模型。这个模型完美地解决了 DALL-E 2 不能在生成图像中指定文字内容的问题，是当下公认的效果最好的 AI 绘画模型之一。并且，DeepFloyd 模型的技术方案，恰恰就是我们今天要讲的主角 Imagen。
今天这一讲我们来探讨 Imagen 背后的技术，主要搞清楚以下几个问题。
第一，相比 DALL-E 2，Imagen 在能力上有哪些优势？
第二，Imagen 的工作原理是怎样的？
第三，DeepFloyd 又在 Imagen 的基础上做了哪些改进？
明白了这些，你会对 AI 绘画技术的发展趋势理解更深刻，在选择 AI 绘画模型时也会更加得心应手。让我们开始吧！
初识 Imagen我们先来看看 Imagen 模型在 AI 绘画这个任务上的表现，建立一个直观感受。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Imagemen模型在AI绘画领域取得了显著的进展，其能够通过文本描述生成高质量的图像，相比于DALL-E 2，Imagemen在图像真实感和语言理解能力上表现更加出色。其工作原理主要包括使用T5模型提取文本表征、将文本表征直接用于指导图像生成，以及采用动态阈值策略提升绘画效果的稳定性。Imagemen的改进之处在于使用T5模型提取文本表征，相比于CLIP模型，T5模型在文本信息提取能力上更为强大；同时，Imagemen直接将文本表征用于指导图像生成，而非采用unCLIP结构，这使得Imagemen能够处理更复杂的文本描述，生成惊艳的绘画效果。总的来说，Imagemen模型的出现为AI绘画技术的发展带来了新的可能性，其技术特点和优势使得其成为当前公认的效果最好的AI绘画模型之一。 DeepFloyd IF模型是Imagemen模型的扩展，通过使用T5模型和引入可学习的最优注意力池化机制，DeepFloyd IF模型在生成图像的效果上明显优于原始的Imagemen。其扩散模型解码器IF-I-XL的参数量达到43亿，同时使用了与Imagemen相同的T5模型，但对T5得到的文本表征设计了一个新的模块。这些技术创新使得DeepFloyd IF模型成为当下生成效果最好的模型之一。总的来说，Imagemen和DeepFloyd IF模型的出现为AI绘画技术带来了新的突破，其技术原理和创新点使得它们成为当前领先的AI绘画模型之一。读者可以通过深入了解这些模型的技术细节，进一步探索其在AI绘画领域的应用和潜力。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 绘画核心技术与实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

Toni
置顶
在Colab A100 下跑 DeepFloyd IF 的代码会出现下列报错: ModuleNotFoundError Traceback (most recent call last) <ipython-input-8-1bb975dcc2d2> in <cell line: 7>() 5 # stage 1 6 stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-M-v1.0", variant="fp16", torch_dtype=torch.float16) ----> 7 stage_1.enable_xformers_memory_efficient_attention() # remove line if torch.__version__ >= 2.0.0 8 stage_1.enable_model_cpu_offload() 9 8 frames /usr/local/lib/python3.10/dist-packages/diffusers/models/attention_processor.py in set_use_memory_efficient_attention_xformers(self, use_memory_efficient_attention_xformers, attention_op) 191 ) 192 if not is_xformers_available(): --> 193 raise ModuleNotFoundError( 194 ( 195 "Refer to https://github.com/facebookresearch/xformers for more information on how to install" ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information on how to install xformers -------------------- 再装 xformers 后报错依旧，什么原因? pip install -U xformers
作者回复: 你好，看起来在Pytorch2.0版本后，需要注释掉stage_1.enable_xformers_memory_efficient_attention()这一行，可以注释掉再看看。配置环境时，需要按照requirements配置pytorch、xformers、diffusers、transformer这几个模块的版本，冲突了很容易报错。希望能帮助到你。
2023-08-18归属地：瑞士
3
1
Eric.Sui
边缘重绘用什么方案？算是变体吗？
作者回复: 你好。我理解你说的边缘重绘应该是图像补全类的能力？如果是这种，那是不属于图像变体的，属于是图生图中的inpainting能力。图像变体的精髓指出在于输入一张图像，不需要显式指定边缘和修改区域，直接生成内容相似的新图片。希望能帮助到你。
2023-08-24归属地：广东


Geek_7401d2
老师您好，DeepFloyd IF模型和stable diffusion 1.5、stable diffusion 2.0等是什么关系呢，他们是两类扩散模型吗？生成效果哪个更好呢
作者回复: 你好，DeepFloyd IF是Imagen的延续；SD模型和Imagen都是基于扩散模型的AI绘画方案，SD模型中使用了VAE和CLIP，而Imagen用到的则是T5大语言模型做文本编码。生成效果而言，DeepFloyd IF和SDXL应该可以一比，几乎算是同时期的工作，效果优于Imagen和SD1.x。如果算力有限推荐使用SDXL。
2023-08-22归属地：北京


cmsgoogle
运行上面这段代码，需要至少 20G 以上的显存。如果需要降低显存占用，可以用 xFormer 优化 Transformer 的计算效率，或者释放已经完成推理的模型资源等。 - TextinImage的示例代码没有给出。
作者回复: 你好，Text-in-Image能力只需要将课程代码中的prompt更换一下即可，也欢迎你使用自己的Text-in-Image进行效果测试。希望能帮助到你。
2023-08-20归属地：美国


zhihai.tu
在哪里可以体验下imagen绘画呢？
作者回复: 你好，Imagen似乎并不支持我们直接体验。可以体验Google的research团队最新Text-in-Image模型: https://ideogram.ai/。
2023-08-18归属地：上海



收起评论