Scaling Law从训练时到推理时的转移
Tyler

你好,我是 Tyler!
今天我们来到了一个非常关键的话题:如何让模型在推理时变得更“聪明”、更“灵活”,而不是一味地用“蛮力”。
前面几节课,我们一步步揭开了 LLM Scaling Law 的面纱。
我们首先理解了模型如何通过惊人的参数量扩展,从根本上拓宽了其学习和记忆的“边界”,拥有了更广阔的知识基础。
接着,我们看到了模型能力从“知道”到“会用”的转变。这得益于高质量数据的投喂,以及通过后训练(Post-training),特别是精巧的提示词工程(Prompting)和对齐技术(Alignment),将预训练阶段获得的原始能力,转化为模型在面对多样化指令时稳定、可靠的推理技能。
然后,我们探讨了将这些庞大而强大的模型投入实际使用的工程化智慧。以 DeepSeek V3 为例,了解了 MLA,RoPE,MTP 等一系列创新技术,它们如何在不牺牲性能的前提下,大幅提升模型的计算效率和处理超长文本的能力,为大模型的实际部署铺平了道路。
通过以上这些努力,我们确实构建了规模庞大、能力扎实,并且运行效率显著提升的模型。这些模型在许多标准的评测基准(Benchmarks)上表现出色,看起来无所不能。
但现实世界的推理,远比基准测试复杂!
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 动态推理机制的引入,让模型在推理时具备感知任务需求,并智能地调整其“思考方式”的能力。 2. 技术路径包括生成并执行内部计划/步骤和不确定性驱动的计算分配,指向了长思维链技术及其背后的动态计算思想。 3. GPT-o1 模型展示了“系统 2”计算能力的先驱,能够在识别出需要精确度的任务时触发模型内部更严谨、更接近算法流程的计算过程。 4. DeepSeek-R1为社区提供了一个宝贵的开源范例,展示了如何通过精心构造数据和训练方法,让模型学会在输出时产生尽可能长的、有条理的思考步骤。 5. DeepSeek-R1的开源性为社区提供了一个高性能、可供研究和改进的长思维链构建实践范例,有助于加速整个领域在复杂推理能力上的进步。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》,新⼈⾸单¥59
《AI 大模型系统实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论