12|TRPO的大语言模型时代扩展:PPO、DPO以及GRPO(下)
H 博士 & 袁从德

内容接上节课,这节课聚焦 GRPO 算法。
一、GRPO 算法
组相对策略优化(Group Relative Policy Optimization, GRPO)是 DeepSeek 在训练其 DeepSeekMath 模型时提出的一种高效 RL 算法,其核心目标是解决 PPO 在 LLM 推理任务中的资源瓶颈。
1.1 GRPO 算法提出的背景
尽管 DPO 提供了一条优雅的替代路径,但在许多需要模型进行复杂、多步推理的任务(如数学、编程)中,基于强化学习的方法依然显示出独特的优势。这类任务的奖励通常是二元的(答案正确或错误),可以通过程序自动验证,这被称为可验证奖励的强化学习(RL with Verifiable Rewards, RLVR)。然而,PPO 的计算和内存开销依然是一个巨大的障碍,特别是其与策略模型大小相当的评论家模型。这催生了一系列旨在保留 RL 优势同时降低其复杂性的新算法。
这一系列算法的演进过程揭示了一个清晰的研究轨迹。首先,GRPO 通过移除 PPO 中资源消耗巨大的参考模型,实现了在推理任务上的重大效率突破。然而,这一看似简单的改动并非没有代价,它引入了一系列更微妙的、先前未被充分认识的问题。随后的“G 家族”算法——Dr. GRPO、GSPO 和 GMPO——可以被看作是对 GRPO 核心框架的一系列精准“补丁”。每一个新算法都识别并修正了 GRPO 的一个特定缺陷,共同完善了最初的“无参考”概念,使其变得更加稳定和可控。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. GRPO算法是DeepSeek在训练DeepSeekMath模型时提出的高效RL算法,旨在解决PPO在LLM推理任务中的资源瓶颈。 2. GRPO通过舍弃评论家模型,采用基于组采样的基线估计方法,实现了在推理任务上的重大效率突破,但引入了一系列更微妙的、先前未被充分认识的问题。 3. GRPO算法的核心原理在于避免维护与策略模型大小相当的价值网络,显著减少内存和计算开销,同时引入稳定性约束,确保训练稳定性。 4. GRPO算法的优势函数的计算只依赖于每个输出的结果奖励,通过均匀分配整体优势值给每个token来简化且有效地近似。 5. GRPO算法的目标函数中带有Actor模型与参考模型的KL散度,用于衡量两个不同离散数据分布的相似程度。 6. GRPO算法的性能表现对比显示在样本效率、训练速度和策略稳定性方面与PPO和DPO有不同的优势和劣势。 7. 某企业计划为其电商平台开发智能客服大模型,核心需求包括:数据特点、优化目标和工程约束。 8. 数据特点包括已积累的对话历史数据和缺乏人工标注的偏好数据,以及标注成本和预算上限。 9. 优化目标是提升回复的相关性、简洁性和合规性,而工程约束包括训练资源有限、训练周期不超过7天,以及模型上线后需支持每周基于新对话数据快速迭代。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《强化学习快速入门与实战》,新⼈⾸单¥59
《强化学习快速入门与实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论