12｜TRPO的大语言模型时代扩展：PPO、DPO以及GRPO（下）

H 博士 & 袁从德

内容接上节课，这节课聚焦 GRPO 算法。
一、GRPO 算法组相对策略优化（Group Relative Policy Optimization, GRPO）是 DeepSeek 在训练其 DeepSeekMath 模型时提出的一种高效 RL 算法，其核心目标是解决 PPO 在 LLM 推理任务中的资源瓶颈。
1.1 GRPO 算法提出的背景尽管 DPO 提供了一条优雅的替代路径，但在许多需要模型进行复杂、多步推理的任务（如数学、编程）中，基于强化学习的方法依然显示出独特的优势。这类任务的奖励通常是二元的（答案正确或错误），可以通过程序自动验证，这被称为可验证奖励的强化学习（RL with Verifiable Rewards, RLVR）。然而，PPO 的计算和内存开销依然是一个巨大的障碍，特别是其与策略模型大小相当的评论家模型。这催生了一系列旨在保留 RL 优势同时降低其复杂性的新算法。
这一系列算法的演进过程揭示了一个清晰的研究轨迹。首先，GRPO 通过移除 PPO 中资源消耗巨大的参考模型，实现了在推理任务上的重大效率突破。然而，这一看似简单的改动并非没有代价，它引入了一系列更微妙的、先前未被充分认识的问题。随后的“G 家族”算法——Dr. GRPO、GSPO 和 GMPO——可以被看作是对 GRPO 核心框架的一系列精准“补丁”。每一个新算法都识别并修正了 GRPO 的一个特定缺陷，共同完善了最初的“无参考”概念，使其变得更加稳定和可控。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. GRPO算法是DeepSeek在训练DeepSeekMath模型时提出的高效RL算法，旨在解决PPO在LLM推理任务中的资源瓶颈。 2. GRPO通过舍弃评论家模型，采用基于组采样的基线估计方法，实现了在推理任务上的重大效率突破，但引入了一系列更微妙的、先前未被充分认识的问题。 3. GRPO算法的核心原理在于避免维护与策略模型大小相当的价值网络，显著减少内存和计算开销，同时引入稳定性约束，确保训练稳定性。 4. GRPO算法的优势函数的计算只依赖于每个输出的结果奖励，通过均匀分配整体优势值给每个token来简化且有效地近似。 5. GRPO算法的目标函数中带有Actor模型与参考模型的KL散度，用于衡量两个不同离散数据分布的相似程度。 6. GRPO算法的性能表现对比显示在样本效率、训练速度和策略稳定性方面与PPO和DPO有不同的优势和劣势。 7. 某企业计划为其电商平台开发智能客服大模型，核心需求包括：数据特点、优化目标和工程约束。 8. 数据特点包括已积累的对话历史数据和缺乏人工标注的偏好数据，以及标注成本和预算上限。 9. 优化目标是提升回复的相关性、简洁性和合规性，而工程约束包括训练资源有限、训练周期不超过7天，以及模型上线后需支持每周基于新对话数据快速迭代。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《强化学习快速入门与实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论