12｜博观约取：重走NLP领域预训练模型的长征路

Tyler

你好，我是 Tyler。
上节课，我们学习了计算机视觉领域预训练模型（PTM）的发展历程和重要成果，了解到 CNN 的平移不变性和边缘提取能力为视觉任务提供了巨大的帮助。
不过你可能会问，上节课学到的 CNN 是根据生物的视觉结构而设计的，我总不能用 CNN 来处理自然语言问题吧？
虽然这样也不是不行，不过 NLP 领域确实有自己更偏好的模型结构。在这节课，我将带你解决自然语言处理领域所独有的一些问题，重走 NLP “长征路”，看看 NLP 模型预训练技术在黎明前都经历过哪些考验。
RNN：生而 NLP 的神经网络我们第一个要学习的模型是循环神经网络（Recurrent Neural Network，RNN），它是一种用于处理“序列数据”的神经网络模型。
RNN 引入了循环结构，如下图所示，在 RNN 中，每个单元都具有一个隐藏状态来存储之前的信息，并将其传递给下一个节点。
如下图所示，每个单元 i 不仅仅接收自身的输入 xi​  来获取当前步骤的文本信息，同时还接收前一个单元的输出 hi−1​  作为另一部分输入，获得上下文信息的补充。
就像前面学习 CNN 的时候一样，从生物尤其是人类的智能中寻找灵感这种做法，在 AI 领域屡见不鲜。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

NLP领域预训练模型的长征路本文深入探讨了NLP领域预训练模型的发展历程和技术特点。文章首先介绍了循环神经网络（RNN）的结构和应用，强调了其适用于处理NLP任务的长序列数据。随后详细解释了长短期记忆网络（LSTM）模型的作用，以及其如何解决了RNN中的梯度消失和爆炸问题。此外，文章还介绍了Seq2Seq架构在处理序列任务时的重要作用，以及编码器-解码器的工作原理。另外，文章还介绍了注意力机制的重要性，以及其在提高模型性能方面的作用。总的来说，通过介绍RNN、LSTM、Seq2Seq等模型，文章展示了NLP领域预训练模型的发展历程和技术特点。这些模型的出现和应用为NLP领域的发展提供了重要的技术支持，尤其是注意力机制的引入，为读者提供了对NLP领域发展趋势的深入了解。文章还提到了Transformer模型的出现，为NLP领域的预训练模型带来了转机。整体而言，本文为读者提供了对NLP领域预训练模型发展历程和技术特点的全面了解。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型系统实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(6)

最新
精选

perfect
置顶
你好，Tyler，我是做软件工程的，对模型设计的数学原理不太理解。听前面的课程感觉很有趣也能理解，但涉及到模型和算法后，不懂底层数学原路感觉理解起来很吃力。想请教几个问题 1、是否可以把AI算法/模型当成一个黑盒使用？业界有没有一些黑盒使用手册 2、如果无法黑盒使用模型，针对非AI专业有什么入门学习路径吗？期望达到会使用会调参的水平，数学需要掌握哪些最少知识？
作者回复: 同学你好，关于第一个问题，答案是可以的，比如 huggingface 的 transformer 库就是为了给大家提供开箱即用的常见算法能力，你只要熟悉它的 API 即可。关于第二个问题，我建议你根据我们的课程进行学习，因为我在课程中为“零基础”的同学提供了一条最短路径，让你可以使用最少的必要知识走通大模型的发展之路。在学习的过程中，如果有哪些具体的细节不清楚，也可以在课后提问，我会为你解答，如果需要课外知识，也会为你提供相关资料。
2023-09-28归属地：浙江

1
有铭
允许后面的人问前面所有的人？那前面的那么多层存在意义在哪里？那干脆把前面的层都铺平让最后一个人挨个问过去，不是更好？没有研究者考虑过这个方向？
作者回复: 你好，有铭！很好的idea，现在研究人员已经发现 Transformer 中存储的知识是有一定分层特点的，比如底层是一些语言知识，而高层则更多是世界知识。这为 Transformer 智能的来源提供了一定的可解释性，但是如你所说，这种人类视角理解的分层特质不一定是最优的结构，相信在后面一定会有更多“简单直接”且更高效的模型结构不断涌现出来。
2023-09-10归属地：湖北

3
跳哥爱学习
用这个传声筒游戏解释了自注意力机制太秒了！
作者回复: 你好，跳哥爱学习，感谢支持！后面的课程中，同样会尽量使用“让大家秒懂”的方式来表达，期待你的持续反馈。
2023-09-07归属地：四川

3
周晓英
何为 CNN 添加注意力机制： 1. 设计注意力模块: 设计一个注意力模块，该模块能够为每个特征图分配一个权重。这个权重表示模型应该给予该特征图多少注意力。常见的注意力模块包括 Squeeze-and-Excitation (SE) 模块、CBAM（Convolutional Block Attention Module）等。 2. 集成注意力模块: 将设计好的注意力模块集成到 CNN 的每一层或某些特定层中。例如，可以在每个卷积层之后添加一个 SE 注意力模块。 3. 注意力权重计算: 在前向传播过程中，计算注意力权重。通常，注意力权重是通过对特征图的全局池化、全连接层和激活函数（如 Sigmoid 函数）计算得到的。 4. 特征重标定: 使用计算得到的注意力权重来重标定特征图。通常，这是通过将注意力权重与原始特征图相乘来实现的。 5. 训练和优化: 训练新的 CNN 模型，并通过反向传播算法优化注意力模块的参数和 CNN 的参数，以最小化目标函数。 6. 评估和调优: 评估模型的性能，如果需要，可以调整注意力模块的设计或参数，以进一步提高模型的性能
2023-10-02归属地：美国

2
周晓英
作弊的可能方式： 1.每个参与者可以使用多种方式传递信息，包含语言，动作，文本，图示等。 2.每个参与者可以设法突出最重要的信息，例如将重要内容高亮或者加上音量。 3.每个参与者身上有一个标记，是他们在历史比赛中传递信息准确度的综合评分，帮助后面的人确定权重。
2023-10-02归属地：北京

1
天之痕
老师您好，因为长时间都不在这个领域（在数据库领域），最近想了解一下大模型的知识，坚持看了12节，还会坚持看完，很多脉络性的知识都能够了解，但是很多底层算法确实一知半解，基础太差，不知道有什么算法入门类的课程可以推荐下，比如神经网络具体如何实现的，TensorFlow原理是啥？😂
2024-02-16归属地：江苏



收起评论