AI 绘画核心技术与实战
南柯
某头部大厂图像团队技术 leader,高级算法专家
6373 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 36 讲
AI 绘画核心技术与实战
15
15
1.0x
00:00/00:00
登录|注册

07|AIGC的核心魔法:搞懂Transformer

你好,我是南柯。
前两讲中,我们已经学习了扩散模型的加噪去噪过程,了解了 UNet 模型用于预测噪声的算法原理。事实上,Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 结构(至于怎么引入的,我们等下一讲学完 UNet 结构便会清楚),这么做可谓一举两得,因为 Transformer 结构不但能提升噪声去除效果,还是实现 prompt 控制图像内容的关键技术。
更重要的是,Transformer 结构也是 GPT 系列工作的核心模块之一。也就是说,我们只有真正理解了 Transformer,才算是进入了当下 AIGC 世界的大门。这一讲,我就为你揭秘 Tranformer 的算法原理。

初识 Transformer

在深度学习中,有很多需要处理时序数据的任务,比如语音识别、文本理解、机器翻译、音乐生成等。不过,经典的卷积神经网络,也就是 CNN 结构,主要擅长处理空间相关的任务,比如图像分类、目标检测等。
因此,RNN(循环神经网络)、LSTM(长短时记忆网络)以及 Transformers 这些解决时序任务的方案便应运而生。

RNN 和 LSTM 解决序列问题

RNN 专为处理序列数据而设计,可以灵活地处理不同长度的数据。RNN 的主要特点是在处理序列数据时,对前面的信息会产生某种“记忆”,通过这种记忆效果,RNN 可以捕捉序列中的时间依赖关系。这种“记忆”在 RNN 中被称为隐藏状态(hidden state)。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Transformer模型是一种革命性的深度学习模型,其核心魔法在于自注意力机制。相较于传统的RNN类方法,Transformer模型通过并行计算和处理长时依赖问题,取得了显著的优势。文章详细介绍了Transformer的整体方案和注意力细节,包括编码器和解码器两个部分,以及自注意力、交叉注意力和多头注意力机制的设计和优势。Transformer模型在处理时序任务中具有重要意义,并在AI绘画模型和GPT模型中得到广泛应用。与传统的递归序列运算不同,Transformer利用自注意力机制同时处理整个序列,使得其在处理长序列数据时速度更快,更易于并行计算。然而,尽管Transformer在许多任务中表现出优越性能,但其训练通常需要大量数据,对内存和计算资源的需求较高。此外,文章还提到了LSTM和Transformer在特定任务上可能具有各自的优势,需要根据具体问题和数据情况来选择最合适的模型。因此,如何改进Transformer的自注意力机制,提高效率并减少计算资源需求,是当前需要探讨的重要课题。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 绘画核心技术与实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(15)

  • 最新
  • 精选
  • 听水的湖
    置顶
    虽然没有什么“跳关”秘籍,但还是有些技巧让你快速掌握一节课内容的。就像数据结构一样,每节课也有“内容结构”,想要快速消化,可以着重理一理后面这几点:这个模块 / 这节课要解决什么问题(What)思路是什么 / 为什么要这么解决(Why)具体如何解决的。 记各种名词没什么印象,可以试试结合例子去分析一下这个技术在里面发挥的作用。如果学习以后,能用自己的话整理一遍,也能帮助自己加深理解,查漏补缺。
    2023-08-17归属地:北京
    4
  • Toni
    注意力机制给大语言模型的发展带来蓬勃动力,近期,2023年8月谷歌的一个研究团队发表了一篇文章,将AI的“领悟”机制第一次带入人们的视野,一项非常有价值的开创性工作。虽然目前还影响不到AI绘画,但还是将链接发给大家,以了解AI的重要进展。 下面是个人观点和一些感悟。 AI绘画出现后,人们就一直关注AI绘画能力的边界问题,由于AI绘画技术具有外延性属性,即它是通过数据训练学习得到的绘画能力,只能是学了什么会什么,这极大地限制了AI绘画会导致新的艺术流派出现的可能性。 我以前的想法是如果能训练AI“懂”一种流派,这个不难实现,比如今天在模型中常见到的梵高模式,然后将几种流派的特征元素提取出来,再重新结合起来,无论是随机组合还是人为干预形成的组合,就可以"创建"出一种新的流派。只要在AI模型所对应的参数上下下功夫,创新流派还是可以实现的。至于什么人喜欢什么人不喜欢并不重要,因它属于另一个范畴,单单艺术审美就与诸如神经元,人的阅历,喜好等众多因素有关,极其复杂,所以不在流派创新要考虑的范围内。 AI“感悟”力的出现,为AI绘画突破外延式限制打开了一扇全新的大门: 如果AI模仿艺术大师的作品,画着画着,突然有了全新的领悟,不就是新艺术流派的诞生吗?这与人类的创造过程及其相似。有趣的是这篇文章还展示了为什么有些AI没有产生“领悟”力的原因: 训练过程中的过拟合和欠拟合都会导致AI模型“领悟”力的匮乏,用大家都懂的话说"过拟合"就如“墨守成规”,"欠拟合"就如“东施效颦”。 “感悟”力机制就像本课讲到的注意力机制一样重要,非同凡响,石破惊天。 随笔记下几个“遐想”,欢迎评论。 参考文献: <<谷歌发现大模型“领悟”现象!训练久了突然不再死记硬背>> https://view.inews.qq.com/a/20230812A05OD900?devid=AD054D9E-92ED-41C6-BFC8-03C4A22E78E4&qimei=f31d129575675bc1d4bebf5e000012117112# 原文: Do Machine Learning Models Memorize or Generalize? https://pair.withgoogle.com/explorables/grokking/

    作者回复: 很有意思的思考,感谢你的分享!现在在大语言模型任务中更流行的说法,可以称这个能力为“涌现”。

    2023-08-13归属地:瑞士
    6
  • vincent
    老师讲的非常好,但是对于我这个小白来说,难度还是比较高,听完后又在网上找了一些视频,结合着在看就更加理解了,在B站看到这个视频我觉得讲的比较适合小白https://www.bilibili.com/video/BV1MY41137AK/?spm_id_from=333.337.search-card.all.click&vd_source=eab8536a6dc6fd2252e60d2ccb546be1

    作者回复: 你好。感谢你的建议,Transformer这一讲确实比较烧脑,你推荐的这个视频很有意思👍,能够帮助大家更直观理解Transformer的用法。我们后面的课程会努力做到更通俗易懂,希望能对大家有所帮助。

    2023-08-02归属地:广东
    3
    4
  • 一只豆
    不知道大家是否和我有同样的感触啊,上节课内容能听懂,这节课好像也凑活。但是,开篇那一句“事实上,Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 结构,”这句桥梁一样的话,好像有点跳。所以看课程的总体过程中,脑子里一直在想,是怎么加进去的。。。总觉得有一种缺半句话 or 一句话的感觉~~~见笑了

    作者回复: 你好。想搞清楚SD模型的UNet是怎么引入Transformer结构的,还需要结合第8讲UNet的结构才能理解。今天这一讲只是希望讲清楚Transformer的原理。这里话似乎只说了一半,我们会在原稿中加以调整。感谢你的反馈~

    2023-07-31归属地:广东
    2
    2
  • 五木老祖
    平时写前端和后端,想了解一下ai,但是太专业了,估计知识点缺失听不懂了。

    作者回复: 你好。我们课程的06-11讲会探讨AIGC的专业知识,这些基础知识有助于我们理解后面实战篇的代码,听起来可能会有些吃力。如果平时工作中不需要算法研发类工作,这几讲可以整体了解下算法原理即可。当然也推荐把不懂的问题写在评论区,我们一起探讨,或者和ChatGPT交流交流。希望能帮助到你。

    2023-08-03归属地:北京
    1
  • syp
    是我肤浅了,开始前几讲还觉得老师讲的不够深入,现在发现深不见底变成看不懂的天书了😨

    作者回复: 你好。这门课程遵循「认识AI绘画 -> 基本原理 -> 经典算法 -> 代码实战」的逻辑,基本原理部分需要一定基础知识,尤其07讲Transformer会有些困难。对于产品、设计同学而言,了解大致过程即可;对于相关从业者,这部分建议多看几次,遇到不理解的点多多评论、或者和ChatGPT聊聊。理解了Transformer对于理解AIGC非常关键,加油~ 希望能帮助到你!

    2023-08-30归属地:北京
  • ~风铃~
    好深奥,身为程序员的我,一点也没看懂。可能没学过人工智能的都弄不懂吧

    编辑回复: 可以整理一下都哪里没看懂

    2023-08-18归属地:江西
    3
  • 留点空白
    确实听不懂这几讲,就过一遍了解一下吧

    编辑回复: 可以说留言出来具体哪里不懂,大家一起讨论。

    2023-08-05归属地:美国
  • 海杰
    记得好像在输入层对token进行编码的时候,还会掺入用三角函数算出来的位置信息,所以同一个token 出现在序列中的不同位置,得到的K,Q,V值是不一样的。所以跟距离远的token 和距离近的token 算出来的注意力权重值也不一样。这样理解对吧?

    作者回复: 你好。你的理解是正确的。在Transformer模型中,通过位置编码(Positional Encoding)这个技术在输入层将每个词的位置信息加入到其编码中。同一个词在不同的位置会得到不同的编码,这就让模型能区分开它们,也使得与之相关的注意力权重不同。这是Transformer模型能考虑到词的顺序和位置的关键。希望能帮助到你。

    2023-08-05归属地:新加坡
  • vincent
    哈哈,听不懂

    编辑回复: 可以梳理一下具体哪些地方不懂。

    2023-08-02归属地:广东
收起评论
显示
设置
留言
15
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部