07｜AIGC的核心魔法：搞懂Transformer

南柯

你好，我是南柯。
前两讲中，我们已经学习了扩散模型的加噪去噪过程，了解了 UNet 模型用于预测噪声的算法原理。事实上，Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 结构（至于怎么引入的，我们等下一讲学完 UNet 结构便会清楚），这么做可谓一举两得，因为 Transformer 结构不但能提升噪声去除效果，还是实现 prompt 控制图像内容的关键技术。
更重要的是，Transformer 结构也是 GPT 系列工作的核心模块之一。也就是说，我们只有真正理解了 Transformer，才算是进入了当下 AIGC 世界的大门。这一讲，我就为你揭秘 Tranformer 的算法原理。
初识 Transformer在深度学习中，有很多需要处理时序数据的任务，比如语音识别、文本理解、机器翻译、音乐生成等。不过，经典的卷积神经网络，也就是 CNN 结构，主要擅长处理空间相关的任务，比如图像分类、目标检测等。
因此，RNN（循环神经网络）、LSTM（长短时记忆网络）以及 Transformers 这些解决时序任务的方案便应运而生。
RNN 和 LSTM 解决序列问题RNN 专为处理序列数据而设计，可以灵活地处理不同长度的数据。RNN 的主要特点是在处理序列数据时，对前面的信息会产生某种“记忆”，通过这种记忆效果，RNN 可以捕捉序列中的时间依赖关系。这种“记忆”在 RNN 中被称为隐藏状态（hidden state）。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Transformer模型是一种革命性的深度学习模型，其核心魔法在于自注意力机制。相较于传统的RNN类方法，Transformer模型通过并行计算和处理长时依赖问题，取得了显著的优势。文章详细介绍了Transformer的整体方案和注意力细节，包括编码器和解码器两个部分，以及自注意力、交叉注意力和多头注意力机制的设计和优势。Transformer模型在处理时序任务中具有重要意义，并在AI绘画模型和GPT模型中得到广泛应用。与传统的递归序列运算不同，Transformer利用自注意力机制同时处理整个序列，使得其在处理长序列数据时速度更快，更易于并行计算。然而，尽管Transformer在许多任务中表现出优越性能，但其训练通常需要大量数据，对内存和计算资源的需求较高。此外，文章还提到了LSTM和Transformer在特定任务上可能具有各自的优势，需要根据具体问题和数据情况来选择最合适的模型。因此，如何改进Transformer的自注意力机制，提高效率并减少计算资源需求，是当前需要探讨的重要课题。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 绘画核心技术与实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(15)

最新
精选

听水的湖
置顶
虽然没有什么“跳关”秘籍，但还是有些技巧让你快速掌握一节课内容的。就像数据结构一样，每节课也有“内容结构”，想要快速消化，可以着重理一理后面这几点：这个模块 / 这节课要解决什么问题（What）思路是什么 / 为什么要这么解决（Why）具体如何解决的。记各种名词没什么印象，可以试试结合例子去分析一下这个技术在里面发挥的作用。如果学习以后，能用自己的话整理一遍，也能帮助自己加深理解，查漏补缺。
2023-08-17归属地：北京

4
Toni
注意力机制给大语言模型的发展带来蓬勃动力，近期，2023年8月谷歌的一个研究团队发表了一篇文章，将AI的“领悟”机制第一次带入人们的视野，一项非常有价值的开创性工作。虽然目前还影响不到AI绘画，但还是将链接发给大家，以了解AI的重要进展。下面是个人观点和一些感悟。 AI绘画出现后，人们就一直关注AI绘画能力的边界问题，由于AI绘画技术具有外延性属性，即它是通过数据训练学习得到的绘画能力，只能是学了什么会什么，这极大地限制了AI绘画会导致新的艺术流派出现的可能性。我以前的想法是如果能训练AI“懂”一种流派，这个不难实现，比如今天在模型中常见到的梵高模式，然后将几种流派的特征元素提取出来，再重新结合起来，无论是随机组合还是人为干预形成的组合，就可以"创建"出一种新的流派。只要在AI模型所对应的参数上下下功夫，创新流派还是可以实现的。至于什么人喜欢什么人不喜欢并不重要，因它属于另一个范畴，单单艺术审美就与诸如神经元，人的阅历，喜好等众多因素有关，极其复杂，所以不在流派创新要考虑的范围内。 AI“感悟”力的出现，为AI绘画突破外延式限制打开了一扇全新的大门: 如果AI模仿艺术大师的作品，画着画着，突然有了全新的领悟，不就是新艺术流派的诞生吗？这与人类的创造过程及其相似。有趣的是这篇文章还展示了为什么有些AI没有产生“领悟”力的原因: 训练过程中的过拟合和欠拟合都会导致AI模型“领悟”力的匮乏，用大家都懂的话说"过拟合"就如“墨守成规”，"欠拟合"就如“东施效颦”。 “感悟”力机制就像本课讲到的注意力机制一样重要，非同凡响，石破惊天。随笔记下几个“遐想”，欢迎评论。参考文献: <<谷歌发现大模型“领悟”现象！训练久了突然不再死记硬背>> https://view.inews.qq.com/a/20230812A05OD900?devid=AD054D9E-92ED-41C6-BFC8-03C4A22E78E4&qimei=f31d129575675bc1d4bebf5e000012117112# 原文: Do Machine Learning Models Memorize or Generalize? https://pair.withgoogle.com/explorables/grokking/
作者回复: 很有意思的思考，感谢你的分享！现在在大语言模型任务中更流行的说法，可以称这个能力为“涌现”。
2023-08-13归属地：瑞士

6
vincent
老师讲的非常好，但是对于我这个小白来说，难度还是比较高，听完后又在网上找了一些视频，结合着在看就更加理解了，在B站看到这个视频我觉得讲的比较适合小白https://www.bilibili.com/video/BV1MY41137AK/?spm_id_from=333.337.search-card.all.click&vd_source=eab8536a6dc6fd2252e60d2ccb546be1
作者回复: 你好。感谢你的建议，Transformer这一讲确实比较烧脑，你推荐的这个视频很有意思👍，能够帮助大家更直观理解Transformer的用法。我们后面的课程会努力做到更通俗易懂，希望能对大家有所帮助。
2023-08-02归属地：广东
3
4
一只豆
不知道大家是否和我有同样的感触啊，上节课内容能听懂，这节课好像也凑活。但是，开篇那一句“事实上，Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 结构，”这句桥梁一样的话，好像有点跳。所以看课程的总体过程中，脑子里一直在想，是怎么加进去的。。。总觉得有一种缺半句话 or 一句话的感觉～～～见笑了
作者回复: 你好。想搞清楚SD模型的UNet是怎么引入Transformer结构的，还需要结合第8讲UNet的结构才能理解。今天这一讲只是希望讲清楚Transformer的原理。这里话似乎只说了一半，我们会在原稿中加以调整。感谢你的反馈～
2023-07-31归属地：广东
2
2
五木老祖
平时写前端和后端，想了解一下ai，但是太专业了，估计知识点缺失听不懂了。
作者回复: 你好。我们课程的06-11讲会探讨AIGC的专业知识，这些基础知识有助于我们理解后面实战篇的代码，听起来可能会有些吃力。如果平时工作中不需要算法研发类工作，这几讲可以整体了解下算法原理即可。当然也推荐把不懂的问题写在评论区，我们一起探讨，或者和ChatGPT交流交流。希望能帮助到你。
2023-08-03归属地：北京

1
syp
是我肤浅了，开始前几讲还觉得老师讲的不够深入，现在发现深不见底变成看不懂的天书了😨
作者回复: 你好。这门课程遵循「认识AI绘画 -> 基本原理 -> 经典算法 -> 代码实战」的逻辑，基本原理部分需要一定基础知识，尤其07讲Transformer会有些困难。对于产品、设计同学而言，了解大致过程即可；对于相关从业者，这部分建议多看几次，遇到不理解的点多多评论、或者和ChatGPT聊聊。理解了Transformer对于理解AIGC非常关键，加油~ 希望能帮助到你！
2023-08-30归属地：北京


～风铃～
好深奥，身为程序员的我，一点也没看懂。可能没学过人工智能的都弄不懂吧
编辑回复: 可以整理一下都哪里没看懂
2023-08-18归属地：江西
3

留点空白
确实听不懂这几讲，就过一遍了解一下吧
编辑回复: 可以说留言出来具体哪里不懂，大家一起讨论。
2023-08-05归属地：美国


海杰
记得好像在输入层对token进行编码的时候，还会掺入用三角函数算出来的位置信息，所以同一个token 出现在序列中的不同位置，得到的K,Q,V值是不一样的。所以跟距离远的token 和距离近的token 算出来的注意力权重值也不一样。这样理解对吧？
作者回复: 你好。你的理解是正确的。在Transformer模型中，通过位置编码（Positional Encoding）这个技术在输入层将每个词的位置信息加入到其编码中。同一个词在不同的位置会得到不同的编码，这就让模型能区分开它们，也使得与之相关的注意力权重不同。这是Transformer模型能考虑到词的顺序和位置的关键。希望能帮助到你。
2023-08-05归属地：新加坡


vincent
哈哈，听不懂
编辑回复: 可以梳理一下具体哪些地方不懂。
2023-08-02归属地：广东



收起评论