13|小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架
李冬梅

你好,这里是极客头条。
在人工智能技术的快速发展中,多模态大语言模型(MLLM)以其强大的图文理解、创作、知识推理及指令遵循能力,成为了推动数字化转型的重要力量。然而,如何使这些模型的输出更加贴近人类的风格、符合人类的偏好,甚至与人类价值观保持一致,成为了一个亟待解决的问题。为了应对这一挑战,基于人类反馈信号的强化学习方法(RLHF)应运而生,其中,PPO(Proximal Policy Optimization)算法作为 OpenAI 的核心技术,在 RLHF 阶段扮演着关键角色。
小红书大模型团队,在这个技术日新月异的时代,开始了他们自研 MLLM RLHF 训练框架的征程。他们深知,要构建一个高效、准确的 RLHF 训练系统,需要综合考虑算法优化、系统架构、训练调度以及推理引擎等多个方面。小红书团队的资深技术专家于子淇在 QCon 上海 2024 大会上展示了他们在 RLHF 框架上的探索、设计和优化细节。同时,他也分享了未来的计划与实践中的痛点,如 RLHF PPO 算法的资源消耗复杂度过高、训练精度的敏感性等,这些问题既是挑战,也是他们持续优化的动力。
下面为演讲原文,我们在不改变原义基础上进行了删减。
👇👇👇
RLHF 背景与技术选择
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 小红书团队自研了多模态大语言模型(MLLM)强化学习方法(RLHF)训练框架,通过优化模型输出、减少幻觉、提升模型泛化能力来解决挑战。 2. 选择PPO算法作为RLHF阶段的主要算法,并进行了基于actor/critic的offload同构组网架构优化。 3. 通过Pipeline优化和精度对齐,提升了训练和推理的一致性,保证了模型输出的准确性。 4. Medusa算法的应用提高了采样效率,加速了推理过程,在长文本下有1.5倍加速比。 5. 通过一系列技术手段提升了收敛速度和训练速度,包括advantage-whiten、pipeline设计、多模并行粒度调优等。 6. 自研推理引擎能够和megatron-core完全对齐,保证了推理风格和测评效果的准确性。 7. 持续优化RLHF框架,解决PPO算法的资源消耗复杂度过高、训练精度的敏感性等问题。 8. 构建高效、准确的RLHF训练系统需要综合考虑算法优化、系统架构、训练调度以及推理引擎等多个方面。 9. 未来计划包括训练速度优化、算法探索、性能优化、架构上对训练和推理深度流水线调度等方面的工作。 10. 团队将继续打造更强的AGI大模型,观察行业进展,强化学习在VLM/LLM的post train阶段对效果有关键提升,相信后面基于RL的self-play是进一步迭代式提升模型效果的关键技术。
该试读文章来自《极客头条》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论