18|大模型预训练:Pre-Training如何让模型变聪明?
独行
你好,我是独行。
上节课我向你介绍了模型的内部结构,为了理解模型的内部结构,我们又顺带回顾了一下模型的实现原理,其中我讲过一句话:模型的训练过程就是不断调整权重的过程,准确一点还应该加上偏置,模型的训练过程就是不断调整权重和偏置的过程,调整的过程依赖反向传播、损失函数等等。
前面我们没有详细讲解这方面的细节,这节课我们再通过一个简单的例子,把预训练的过程完整细致地串一遍。我们将使用一个三层神经网络结构的模型来进行数据分类的展示。这个模型接收两个输入变量:学习时间和睡眠时间,并基于这些输入预测一个学生是否能够通过考试。
我们还是按照常规的模型训练步骤来进行,但前面讲过的内容这节课就不细说了。
网络结构设计
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 大模型预训练对模型的智能化提升具有重要作用,通过完整细致的预训练过程,展示了使用三层神经网络结构的模型进行数据分类的效果。 2. 参数的初始化对模型的收敛速度和是否能够收敛到一个好的解具有重要影响,常用的权重和偏置初始化方法包括随机初始化、常数初始化、特定分布初始化和正交初始化。 3. 前向传播是指Embedding后的输入向量一层一层向后传递的过程,每一层都有权重和偏置,其中nn.Linear层的权重和参数的赋值方式是通过矩阵乘法加上偏置项来实现的。 4. 损失函数是神经网络训练过程中非常重要的概念,描述本次前向传播结果和实际值的差异,常用的损失函数包括二元交叉熵损失(Binary Cross-Entropy Loss)。 5. 可以通过自定义函数并使用`.apply()`方法来对模型的所有参数进行自定义初始化,这种方法非常灵活,适用于复杂的模型结构。 6. 模型网络结构的设计包括定义一个只包含解码器的Transformer模型,通过初始化指定num_layers=3来完成。 7. 数据集准备包括准备一些训练数据,可以用CSV格式的文件存储,并将数据集分割为训练集和测试集,常用的比例为80%训练集和20%测试集。 8. 反向传播是神经网络训练过程中的一个重要概念,用来根据损失推算合适的权重和偏置。 9. 更新参数时,可以使用优化器进行权重参数的更新,如使用optim.Adam优化器进行参数更新。 10. 当损失已经非常小,并到达训练目标时,可以停止训练。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型实战高手课》,新⼈⾸单¥59
《AI 大模型实战高手课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论