AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
12727 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 44 讲
结束语&结课测试 (2讲)
第二季回归 (1讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

Scaling Law从训练时到推理时的转移

你好,我是 Tyler!
今天我们来到了一个非常关键的话题:如何让模型在推理时变得更“聪明”、更“灵活”,而不是一味地用“蛮力”。
前面几节课,我们一步步揭开了 LLM Scaling Law 的面纱。
我们首先理解了模型如何通过惊人的参数量扩展,从根本上拓宽了其学习和记忆的“边界”,拥有了更广阔的知识基础。
接着,我们看到了模型能力从“知道”到“会用”的转变。这得益于高质量数据的投喂,以及通过后训练(Post-training),特别是精巧的提示词工程(Prompting)对齐技术(Alignment),将预训练阶段获得的原始能力,转化为模型在面对多样化指令时稳定、可靠的推理技能。
然后,我们探讨了将这些庞大而强大的模型投入实际使用的工程化智慧。以 DeepSeek V3 为例,了解了 MLA,RoPE,MTP 等一系列创新技术,它们如何在不牺牲性能的前提下,大幅提升模型的计算效率和处理超长文本的能力,为大模型的实际部署铺平了道路。
通过以上这些努力,我们确实构建了规模庞大、能力扎实,并且运行效率显著提升的模型。这些模型在许多标准的评测基准(Benchmarks)上表现出色,看起来无所不能。
但现实世界的推理,远比基准测试复杂!
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 动态推理机制的引入,让模型在推理时具备感知任务需求,并智能地调整其“思考方式”的能力。 2. 技术路径包括生成并执行内部计划/步骤和不确定性驱动的计算分配,指向了长思维链技术及其背后的动态计算思想。 3. GPT-o1 模型展示了“系统 2”计算能力的先驱,能够在识别出需要精确度的任务时触发模型内部更严谨、更接近算法流程的计算过程。 4. DeepSeek-R1为社区提供了一个宝贵的开源范例,展示了如何通过精心构造数据和训练方法,让模型学会在输出时产生尽可能长的、有条理的思考步骤。 5. DeepSeek-R1的开源性为社区提供了一个高性能、可供研究和改进的长思维链构建实践范例,有助于加速整个领域在复杂推理能力上的进步。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)