AI 大模型实战高手课
独行
前阿里巴巴高级技术专家,国内某大型互联网公司首席技术官
2659 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 19 讲/共 33 讲
第四章:终极玩法,从0到1构建大模型 (2讲)
AI 大模型实战高手课
15
15
1.0x
00:00/00:00
登录|注册

17|模型解剖:探究模型内部到底是什么?

你好,我是独行。
上节课我们手敲了一个 Transformer 模型,实际最终训练出来的模型,参数量大概在 1.2 亿左右,文件大小约 505M,这一节课我们再来探究一个非常有意思的问题:这个 505M 的文件内部到底存放的是什么?
前段时间我们本地运行过 ChatGLM3-6B,你还记得吗?6B 的模型文件分为 8 个,有的版本是 5 个,几个文件加在一起大约 20G,6B 的爷爷 130B 模型文件加起来近 240G。不知道你有没有同样的疑问,在我最早接触大语言模型的时候,就非常好奇,大模型文件里到底存的是什么?随着不断地研究学习,总算有了一知半解,这节课就来和你分享一下。

模型文件

所谓模型文件,也可以叫模型权重,里面大部分空间存放的是模型的参数:权重(Weights)和偏置(Biases),当然也有一些其他信息,比如优化器状态、其他元数据,比如 epoch 数等。我们使用的是 PyTorch 框架,生成的模型权重文件格式是.pth,如果使用 TensorFlow 或者 Hugging Face Transformers 等框架,也有可能是.bin 格式的文件。模型预训练完成后,我们可以调用下面的代码保存模型。
只保存权重
torch.save(model.state_dict(), 'model_weights.pth')
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 模型文件存放的主要内容是模型的参数:权重和偏置,以及其他信息如优化器状态和元数据。 2. 权重和偏置在神经网络中扮演着重要的角色,权重决定输入数据对输出结果的影响,而偏置用于调整输出。 3. 模型的容量主要由参数量和存储空间组成,而Embedding层在整个模型中占据着重要的地位,既在存储方面也在参数方面都占据着较大比例。 4. Embedding层的矩阵参数表示词向量在特定维度上的权重或特征,这些参数在模型训练过程中会根据损失计算和反向传播进行更新,以更好地表示词语。 5. 模型训练过程包括前向传播、损失计算、反向传播和参数更新,而模型推理则是根据训练好的参数进行前向传播的过程。 6. 机器学习框架如PyTorch可以识别模型文件,并且把模型结构重构出来进行训练和推理。 7. 大型模型的权重文件通常分开存放,需要在使用时进行合并,这种设计可能是为了方便存储和传输,同时也可以灵活地加载和使用不同部分的权重。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型实战高手课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)