极客头条
15
15
1.0x
00:00/00:00
登录|注册

13|小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架

你好,这里是极客头条。
在人工智能技术的快速发展中,多模态大语言模型(MLLM)以其强大的图文理解、创作、知识推理及指令遵循能力,成为了推动数字化转型的重要力量。然而,如何使这些模型的输出更加贴近人类的风格、符合人类的偏好,甚至与人类价值观保持一致,成为了一个亟待解决的问题。为了应对这一挑战,基于人类反馈信号的强化学习方法(RLHF)应运而生,其中,PPO(Proximal Policy Optimization)算法作为 OpenAI 的核心技术,在 RLHF 阶段扮演着关键角色。
小红书大模型团队,在这个技术日新月异的时代,开始了他们自研 MLLM RLHF 训练框架的征程。他们深知,要构建一个高效、准确的 RLHF 训练系统,需要综合考虑算法优化、系统架构、训练调度以及推理引擎等多个方面。小红书团队的资深技术专家于子淇在 QCon 上海 2024 大会上展示了他们在 RLHF 框架上的探索、设计和优化细节。同时,他也分享了未来的计划与实践中的痛点,如 RLHF PPO 算法的资源消耗复杂度过高、训练精度的敏感性等,这些问题既是挑战,也是他们持续优化的动力。
下面为演讲原文,我们在不改变原义基础上进行了删减。
👇👇👇

RLHF 背景与技术选择

确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 小红书团队自研了多模态大语言模型(MLLM)强化学习方法(RLHF)训练框架,通过优化模型输出、减少幻觉、提升模型泛化能力来解决挑战。 2. 选择PPO算法作为RLHF阶段的主要算法,并进行了基于actor/critic的offload同构组网架构优化。 3. 通过Pipeline优化和精度对齐,提升了训练和推理的一致性,保证了模型输出的准确性。 4. Medusa算法的应用提高了采样效率,加速了推理过程,在长文本下有1.5倍加速比。 5. 通过一系列技术手段提升了收敛速度和训练速度,包括advantage-whiten、pipeline设计、多模并行粒度调优等。 6. 自研推理引擎能够和megatron-core完全对齐,保证了推理风格和测评效果的准确性。 7. 持续优化RLHF框架,解决PPO算法的资源消耗复杂度过高、训练精度的敏感性等问题。 8. 构建高效、准确的RLHF训练系统需要综合考虑算法优化、系统架构、训练调度以及推理引擎等多个方面。 9. 未来计划包括训练速度优化、算法探索、性能优化、架构上对训练和推理深度流水线调度等方面的工作。 10. 团队将继续打造更强的AGI大模型,观察行业进展,强化学习在VLM/LLM的post train阶段对效果有关键提升,相信后面基于RL的self-play是进一步迭代式提升模型效果的关键技术。

该试读文章来自《极客头条》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)