AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
11118 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 42 讲
结束语&结课测试 (2讲)
第二季回归 (1讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

DeepSeek V3提示语工程和后训练的完美闭环

你好,我是 Tyler!
上一节课中,我们讨论了 Scaling Law 中的第一个重要因素 —— 参数的扩展,了解到大规模参数量如何从根本上影响语言模型的表现。今天,我们将焦点转向“第二阶段:数据的扩展”,也就是在后训练阶段对数据进行的探索,以及这些探索如何影响语言模型的推理能力。

预训练:语言模型的基础

在谈数据之前,先回顾一下预训练阶段的关键:在预训练阶段,我们会一次性地向模型提供海量文本数据,让它充分学习语言的词义、语法结构以及基本推理能力。经过这样的过程,模型便具备了初步的语言理解和推理雏形。
有趣的是,研究者在实践中意外发现,某些“提示语”(Prompts)能够让模型产生更好的推理效果。例如“Let’s think step by step”这句话,在处理复杂问题时,能引导模型把问题拆解成更小、更易处理的部分,然后逐步推理得出答案。
但需要注意的是,这些提示语往往带有“偶然性”,是在大量试错中意外发现的。有时对某些特定任务效果立竿见影,却无法应对更精密、更复杂的推理需求。
于是,在预训练阶段获得的所有提示语,更像是一个“彩蛋”,它们虽然为模型提供了思路,但无法完整支持多样且高难度的场景。这就引出了我们今天的重点:后训练阶段的数据探索。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 后训练阶段旨在强化或微调模型的表现,将提示语转化为稳定能力,通过不断微调和构造多样化的训练数据,利用提示语工程的方法,让模型在各种场景下都能稳定地应用这些提示语。 2. DeepSeek V3 在后训练阶段进行指令微调对齐和强化学习对齐,通过收集大量真实场景下的指令数据,并设计奖励体系对答案的逻辑性、准确性以及与指令契合度进行打分,使模型在不断试错中逐渐优化自己的推理路径和响应策略。 3. DeepSeek V3 使用了关键技术 GRPO 来进一步强化模型的自我进化能力,通过奖励平滑与调控机制,让模型在不断试错的过程中保持稳定性和高效性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部