强化学习快速入门与实战
15
15
1.0x
00:00/00:00
登录|注册

12|TRPO的大语言模型时代扩展:PPO、DPO以及GRPO(下)

内容接上节课,这节课聚焦 GRPO 算法。

一、GRPO 算法

组相对策略优化(Group Relative Policy Optimization, GRPO)是 DeepSeek 在训练其 DeepSeekMath 模型时提出的一种高效 RL 算法,其核心目标是解决 PPO 在 LLM 推理任务中的资源瓶颈。

1.1 GRPO 算法提出的背景

尽管 DPO 提供了一条优雅的替代路径,但在许多需要模型进行复杂、多步推理的任务(如数学、编程)中,基于强化学习的方法依然显示出独特的优势。这类任务的奖励通常是二元的(答案正确或错误),可以通过程序自动验证,这被称为可验证奖励的强化学习(RL with Verifiable Rewards, RLVR)。然而,PPO 的计算和内存开销依然是一个巨大的障碍,特别是其与策略模型大小相当的评论家模型。这催生了一系列旨在保留 RL 优势同时降低其复杂性的新算法。
这一系列算法的演进过程揭示了一个清晰的研究轨迹。首先,GRPO 通过移除 PPO 中资源消耗巨大的参考模型,实现了在推理任务上的重大效率突破。然而,这一看似简单的改动并非没有代价,它引入了一系列更微妙的、先前未被充分认识的问题。随后的“G 家族”算法——Dr. GRPO、GSPO 和 GMPO——可以被看作是对 GRPO 核心框架的一系列精准“补丁”。每一个新算法都识别并修正了 GRPO 的一个特定缺陷,共同完善了最初的“无参考”概念,使其变得更加稳定和可控。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. GRPO算法是DeepSeek在训练DeepSeekMath模型时提出的高效RL算法,旨在解决PPO在LLM推理任务中的资源瓶颈。 2. GRPO通过舍弃评论家模型,采用基于组采样的基线估计方法,实现了在推理任务上的重大效率突破,但引入了一系列更微妙的、先前未被充分认识的问题。 3. GRPO算法的核心原理在于避免维护与策略模型大小相当的价值网络,显著减少内存和计算开销,同时引入稳定性约束,确保训练稳定性。 4. GRPO算法的优势函数的计算只依赖于每个输出的结果奖励,通过均匀分配整体优势值给每个token来简化且有效地近似。 5. GRPO算法的目标函数中带有Actor模型与参考模型的KL散度,用于衡量两个不同离散数据分布的相似程度。 6. GRPO算法的性能表现对比显示在样本效率、训练速度和策略稳定性方面与PPO和DPO有不同的优势和劣势。 7. 某企业计划为其电商平台开发智能客服大模型,核心需求包括:数据特点、优化目标和工程约束。 8. 数据特点包括已积累的对话历史数据和缺乏人工标注的偏好数据,以及标注成本和预算上限。 9. 优化目标是提升回复的相关性、简洁性和合规性,而工程约束包括训练资源有限、训练周期不超过7天,以及模型上线后需支持每周基于新对话数据快速迭代。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《强化学习快速入门与实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部