DeepSeek V3提示语工程和后训练的完美闭环

Tyler

你好，我是 Tyler！
上一节课中，我们讨论了 Scaling Law 中的第一个重要因素 —— 参数的扩展，了解到大规模参数量如何从根本上影响语言模型的表现。今天，我们将焦点转向“第二阶段：数据的扩展”，也就是在后训练阶段对数据进行的探索，以及这些探索如何影响语言模型的推理能力。
预训练：语言模型的基础在谈数据之前，先回顾一下预训练阶段的关键：在预训练阶段，我们会一次性地向模型提供海量文本数据，让它充分学习语言的词义、语法结构以及基本推理能力。经过这样的过程，模型便具备了初步的语言理解和推理雏形。
有趣的是，研究者在实践中意外发现，某些“提示语”（Prompts）能够让模型产生更好的推理效果。例如“Let’s think step by step”这句话，在处理复杂问题时，能引导模型把问题拆解成更小、更易处理的部分，然后逐步推理得出答案。
但需要注意的是，这些提示语往往带有“偶然性”，是在大量试错中意外发现的。有时对某些特定任务效果立竿见影，却无法应对更精密、更复杂的推理需求。
于是，在预训练阶段获得的所有提示语，更像是一个“彩蛋”，它们虽然为模型提供了思路，但无法完整支持多样且高难度的场景。这就引出了我们今天的重点：后训练阶段的数据探索。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 后训练阶段旨在强化或微调模型的表现，将提示语转化为稳定能力，通过不断微调和构造多样化的训练数据，利用提示语工程的方法，让模型在各种场景下都能稳定地应用这些提示语。 2. DeepSeek V3 在后训练阶段进行指令微调对齐和强化学习对齐，通过收集大量真实场景下的指令数据，并设计奖励体系对答案的逻辑性、准确性以及与指令契合度进行打分，使模型在不断试错中逐渐优化自己的推理路径和响应策略。 3. DeepSeek V3 使用了关键技术 GRPO 来进一步强化模型的自我进化能力，通过奖励平滑与调控机制，让模型在不断试错的过程中保持稳定性和高效性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型系统实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论