AI 绘画核心技术与实战
南柯
某头部大厂图像团队技术 leader,高级算法专家
6373 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 36 讲
AI 绘画核心技术与实战
15
15
1.0x
00:00/00:00
登录|注册

14|挑战者Imagen:为什么会后来居上?

你好,我是南柯。
上一讲我们一起探索了 OpenAI 推出的 DALL-E 2 背后的技术原理。仅仅过去一个月,在 2022 年 5 月,Google 便发布了自己的 AI 绘画模型 Imagen。Imagen 在效果上显著优于 DALL-E 2,并且通过实验证明,只要文本模型足够大,就不再需要扩散先验模型。
一年之后,2023 年的 4 月 28 日,后来者 StabilityAI,也就是搞出来 Stable Diffusion 这个模型的公司,发布了 DeepFloyd 模型。这个模型完美地解决了 DALL-E 2 不能在生成图像中指定文字内容的问题,是当下公认的效果最好的 AI 绘画模型之一。并且,DeepFloyd 模型的技术方案,恰恰就是我们今天要讲的主角 Imagen
今天这一讲我们来探讨 Imagen 背后的技术,主要搞清楚以下几个问题。
第一,相比 DALL-E 2,Imagen 在能力上有哪些优势?
第二,Imagen 的工作原理是怎样的?
第三,DeepFloyd 又在 Imagen 的基础上做了哪些改进?
明白了这些,你会对 AI 绘画技术的发展趋势理解更深刻,在选择 AI 绘画模型时也会更加得心应手。让我们开始吧!

初识 Imagen

我们先来看看 Imagen 模型在 AI 绘画这个任务上的表现,建立一个直观感受。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Imagemen模型在AI绘画领域取得了显著的进展,其能够通过文本描述生成高质量的图像,相比于DALL-E 2,Imagemen在图像真实感和语言理解能力上表现更加出色。其工作原理主要包括使用T5模型提取文本表征、将文本表征直接用于指导图像生成,以及采用动态阈值策略提升绘画效果的稳定性。Imagemen的改进之处在于使用T5模型提取文本表征,相比于CLIP模型,T5模型在文本信息提取能力上更为强大;同时,Imagemen直接将文本表征用于指导图像生成,而非采用unCLIP结构,这使得Imagemen能够处理更复杂的文本描述,生成惊艳的绘画效果。总的来说,Imagemen模型的出现为AI绘画技术的发展带来了新的可能性,其技术特点和优势使得其成为当前公认的效果最好的AI绘画模型之一。 DeepFloyd IF模型是Imagemen模型的扩展,通过使用T5模型和引入可学习的最优注意力池化机制,DeepFloyd IF模型在生成图像的效果上明显优于原始的Imagemen。其扩散模型解码器IF-I-XL的参数量达到43亿,同时使用了与Imagemen相同的T5模型,但对T5得到的文本表征设计了一个新的模块。这些技术创新使得DeepFloyd IF模型成为当下生成效果最好的模型之一。 总的来说,Imagemen和DeepFloyd IF模型的出现为AI绘画技术带来了新的突破,其技术原理和创新点使得它们成为当前领先的AI绘画模型之一。读者可以通过深入了解这些模型的技术细节,进一步探索其在AI绘画领域的应用和潜力。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 绘画核心技术与实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • Toni
    置顶
    在Colab A100 下跑 DeepFloyd IF 的代码会出现下列报错: ModuleNotFoundError Traceback (most recent call last) <ipython-input-8-1bb975dcc2d2> in <cell line: 7>() 5 # stage 1 6 stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-M-v1.0", variant="fp16", torch_dtype=torch.float16) ----> 7 stage_1.enable_xformers_memory_efficient_attention() # remove line if torch.__version__ >= 2.0.0 8 stage_1.enable_model_cpu_offload() 9 8 frames /usr/local/lib/python3.10/dist-packages/diffusers/models/attention_processor.py in set_use_memory_efficient_attention_xformers(self, use_memory_efficient_attention_xformers, attention_op) 191 ) 192 if not is_xformers_available(): --> 193 raise ModuleNotFoundError( 194 ( 195 "Refer to https://github.com/facebookresearch/xformers for more information on how to install" ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information on how to install xformers -------------------- 再装 xformers 后报错依旧,什么原因? pip install -U xformers

    作者回复: 你好,看起来在Pytorch2.0版本后,需要注释掉stage_1.enable_xformers_memory_efficient_attention()这一行,可以注释掉再看看。配置环境时,需要按照requirements配置pytorch、xformers、diffusers、transformer这几个模块的版本,冲突了很容易报错。希望能帮助到你。

    2023-08-18归属地:瑞士
    3
    1
  • Eric.Sui
    边缘重绘用什么方案?算是变体吗?

    作者回复: 你好。我理解你说的边缘重绘应该是图像补全类的能力?如果是这种,那是不属于图像变体的,属于是图生图中的inpainting能力。图像变体的精髓指出在于输入一张图像,不需要显式指定边缘和修改区域,直接生成内容相似的新图片。希望能帮助到你。

    2023-08-24归属地:广东
  • Geek_7401d2
    老师您好,DeepFloyd IF模型和stable diffusion 1.5、stable diffusion 2.0等是什么关系呢,他们是两类扩散模型吗?生成效果哪个更好呢

    作者回复: 你好,DeepFloyd IF是Imagen的延续;SD模型和Imagen都是基于扩散模型的AI绘画方案,SD模型中使用了VAE和CLIP,而Imagen用到的则是T5大语言模型做文本编码。生成效果而言,DeepFloyd IF和SDXL应该可以一比,几乎算是同时期的工作,效果优于Imagen和SD1.x。如果算力有限推荐使用SDXL。

    2023-08-22归属地:北京
  • cmsgoogle
    运行上面这段代码,需要至少 20G 以上的显存。如果需要降低显存占用,可以用 xFormer 优化 Transformer 的计算效率,或者释放已经完成推理的模型资源等。 - TextinImage的示例代码没有给出。

    作者回复: 你好,Text-in-Image能力只需要将课程代码中的prompt更换一下即可,也欢迎你使用自己的Text-in-Image进行效果测试。希望能帮助到你。

    2023-08-20归属地:美国
  • zhihai.tu
    在哪里可以体验下imagen绘画呢?

    作者回复: 你好,Imagen似乎并不支持我们直接体验。可以体验Google的research团队最新Text-in-Image模型: https://ideogram.ai/。

    2023-08-18归属地:上海
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部