17｜对齐技术：RLHF、RLAIF与Constitutional AI与行为控制

赵帅

你好，我是赵帅。
前面我们讲过许多大模型的输出控制、边界设定和风险防护的知识，很多同学可能都会产生一系列的疑问：模型守规矩的本质到底是什么？我们设置再多的规则、封禁再多的关键词，它真的会自我觉醒吗？为什么有的模型越训越听话，有的却越训越不靠谱？甚至同一句敏感话题，为什么一个模型会婉拒，另一个模型却照单全收？这背后到底靠的是什么机制呢？
说到底，这一节课我们要聚焦的主题就两个关键词，“行为控制”与“价值对齐”。也就是说，当我们希望大模型在遇到复杂、模糊、甚至灰色地带的问题时，依然能输出符合预期的响应风格，这其实已经不是语言建模的问题了，而是它能不能读懂我们想要的行为，愿不愿意配合执行这个层面的问题。而实现这一目标，背后的关键武器就是行为层面的训练机制。
今天我们要正式进入它的核心，包括 RLHF（Reinforcement Learning from Human Feedback），也就是基于人类偏好的强化学习，和 RLAIF（Reinforcement Learning with AI Feedback），也就是用 AI 替代人类进行反馈标注的机制，以及 Constitutional AI，一种基于“成文原则”的对齐方式。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 行为对齐技术包括RLHF、RLAIF和Constitutional AI，旨在让大模型在复杂、模糊的问题中输出符合预期的响应风格。 2. RLHF的核心技术是基于人类偏好的强化学习，通过预训练、奖励模型构建和强化微调三个阶段，让模型更符合人类的审美、习惯和价值判断。 3. RLAIF是一种更“划算”的方法，使用“审稿模型”来评估模型生成的内容，从而实现自动化的打分和反馈，但存在幻觉传播和评分模型质量的风险。 4. Constitutional AI的核心理念是给模型一套行为准则，让它在生成内容时自己对照规则修正输出，不依赖人工标注和评分模型，但效果高度依赖于制定的“宪法”是否清晰、严谨、适度。 5. 行为对齐技术的实战价值在于适用于各种场景，如智能客服机器人、医疗问答助手和代码辅助工具，以确保模型输出符合人类期望。 6. 行为对齐不等于绝对安全，各技术路线存在局限，如评分准确性、模型输出偏见和规则遵守程度。 7. 评估对齐程度可采用3H模型，即Helpful（有帮助）、Honest（诚实）、Harmless（无害），并依赖一套指标体系进行量化评估。 8. 企业部署时的注意事项包括设计合适的评价方法、建立闭环的反馈机制和可解释的奖励机制。 9. 行为对齐未来的发展趋势包括多模型互评机制、多维反馈融合机制和可解释性奖励机制，以提升模型的长期稳定能力。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大模型安全实战课》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论