AI 绘画核心技术与实战
南柯
某头部大厂图像团队技术 leader,高级算法专家
6373 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 36 讲
AI 绘画核心技术与实战
15
15
1.0x
00:00/00:00
登录|注册

08|巧用神经网络:如何用UNet预测噪声

你好,我是南柯。
前面我们已经学习了扩散模型加噪和去噪的过程,也了解了 Transformer 的基本原理。之前我还埋下了一个伏笔,那便是使用 UNet 网络预测每一步的噪声。
今天我就来为你解读 UNet 的核心知识。在这一讲,我们主要解决后面这三个问题。
UNet 模型的工作原理是怎样的?
在各种 AI 绘画模型里用到的 UNet 结构有什么特殊之处?
UNet 与 Transformer 要如何结合?
搞懂了这些,在你的日常工作中,便可以根据实际需求对预测噪声的模型做各种魔改了,也会为我们之后训练扩散模型的实战课打好基础。

初识 UNet

在正式认识 UNet 之前,我们有必要先了解一下图像分割这个任务。
图像分割是计算机视觉领域的一种基本任务,它的目标是将图像划分为多个区域,对应于原图中不同的语义内容。比如下面这个例子,就是针对自动驾驶场景的图像分割效果。
图片来源:https://www.cityscapes-dataset.com/
图像分割与我们熟悉的图像分类任务目标有所不同,图像分类任务的目标是为整张图像分配一个整体标签,而图像分割任务的目标是为每个像素分配对应的类别标签。
UNet 出现之前,图像分割采用的主要方法是 2015 年提出的 FCN(全卷积网络)。与传统的 CNN(卷积神经网络)不同,FCN 去掉了最后的全连接层,而是使用转置卷积层实现上采样的过程。通过这样的操作,FCN 可以获得与输入图像相同尺寸的输出。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

UNet神经网络模型在预测噪声方面的应用是本文的重点。UNet以其独特的U型全卷积结构和跳跃连接,在图像分割任务中表现出色。文章首先介绍了UNet的基本结构和常用的损失函数,重点讨论了UNet模型在预测噪声方面的应用。UNet通过最小化交叉熵损失函数来训练,以获取准确的像素级分类。此外,文章还提到了UNet与Transformer的结合,为读者提供了对预测噪声模型进行改进的思路。UNet在医学图像分割、自然图像分割、AI绘画等领域有广泛应用,为读者提供了在图像处理领域中利用神经网络进行噪声预测的基础知识和实践指导。文章通过介绍UNet模型的工作原理和应用,为读者提供了全面的技术概览。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 绘画核心技术与实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 徐大雷
    想请问一下老师,你这边的头像使用的啥模型生成的呀,还有对应的提示词是啥呀,谢谢

    编辑回复: Midjourney,垫图➕照片描述(越仔细越好)➕ keep the consistency of action, expression, clothing, shape and appearance of the photos, 3d character from Disney Pixar, super detail, gradient background, soft colors, fine luster, blender, soft lighting, anime, art, ip, blind box, divine, cinematic edge lighting, 8k --niji 5 --ar 3:4 --q 2 --style expressive --s 400 --niji 5 --style expressive

    2023-08-08归属地:湖北
    2
  • 海杰
    会讲下CLIP 模型吗?看网上不少范例的参数都有说用CLIP skip step 2,想知道原理。谢谢。

    编辑回复: 下周一第10讲就讲Clip,敬请期待。

    2023-08-05归属地:新加坡
  • 一只豆
    这也太绝妙了吧!“在 Stable Diffusion 中,我们将 Z_{T} 视为目标序列,得到 Q;将 prompt 描述经过 CLIP 模型得到的特征向量作为源序列,得到 K 和 V。” 语义信息就这样把注意力跨模态的映射到图片信息了……

    作者回复: 是的,SD模型巧妙地利用Cross-Attention完成了信息注入,从而让AI绘画模型实现言出法随。

    2023-08-04归属地:广东
  • Ericpoon
    为什么说unet,或AI画画的模型学习,要用decoder输出喿声?

    作者回复: 你好。关于这一点,需要看第6讲扩散模型进行AI绘画的基本原理。从它的工作原理可以知道,我们需要一个神经网络来预测每一步的噪声(输入带噪声图像、预测上一步引入的噪声值),而UNet的输入输出分辨率特性决定了它很适合去逐步预测噪声。

    2023-08-03归属地:福建
  • peter
    请教老师两个问题: Q1:跳跃连接,是两个对等层的数据会有关系吗?比如,右边的层会使用左边的层的数据作为输入。 Q2:有能唱歌的AI吗?

    作者回复: 你好。关于Q1,跳跃连接两个对等层主要是分辨率相同,便于进行特征相加或者拼接操作,右边的层并不会使用左边的层作为输入,每一层的输入都是上一层的输出。关于Q2,各种音乐软件上有不少纯AI创作的音乐(作曲、作词、演唱等),可以听听感受下。另外,这一周,Meta发布了一个音乐AI 名为AudioCraft,你也可以了解下。希望能帮助到你。

    2023-08-02归属地:北京
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部