17|对齐技术:RLHF、RLAIF与Constitutional AI与行为控制
赵帅

你好,我是赵帅。
前面我们讲过许多大模型的输出控制、边界设定和风险防护的知识,很多同学可能都会产生一系列的疑问:模型守规矩的本质到底是什么?我们设置再多的规则、封禁再多的关键词,它真的会自我觉醒吗?为什么有的模型越训越听话,有的却越训越不靠谱?甚至同一句敏感话题,为什么一个模型会婉拒,另一个模型却照单全收?这背后到底靠的是什么机制呢?
说到底,这一节课我们要聚焦的主题就两个关键词,“行为控制”与“价值对齐”。也就是说,当我们希望大模型在遇到复杂、模糊、甚至灰色地带的问题时,依然能输出符合预期的响应风格,这其实已经不是语言建模的问题了,而是它能不能读懂我们想要的行为,愿不愿意配合执行这个层面的问题。而实现这一目标,背后的关键武器就是行为层面的训练机制。
今天我们要正式进入它的核心,包括 RLHF(Reinforcement Learning from Human Feedback),也就是基于人类偏好的强化学习,和 RLAIF(Reinforcement Learning with AI Feedback),也就是用 AI 替代人类进行反馈标注的机制,以及 Constitutional AI,一种基于“成文原则”的对齐方式。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 行为对齐技术包括RLHF、RLAIF和Constitutional AI,旨在让大模型在复杂、模糊的问题中输出符合预期的响应风格。 2. RLHF的核心技术是基于人类偏好的强化学习,通过预训练、奖励模型构建和强化微调三个阶段,让模型更符合人类的审美、习惯和价值判断。 3. RLAIF是一种更“划算”的方法,使用“审稿模型”来评估模型生成的内容,从而实现自动化的打分和反馈,但存在幻觉传播和评分模型质量的风险。 4. Constitutional AI的核心理念是给模型一套行为准则,让它在生成内容时自己对照规则修正输出,不依赖人工标注和评分模型,但效果高度依赖于制定的“宪法”是否清晰、严谨、适度。 5. 行为对齐技术的实战价值在于适用于各种场景,如智能客服机器人、医疗问答助手和代码辅助工具,以确保模型输出符合人类期望。 6. 行为对齐不等于绝对安全,各技术路线存在局限,如评分准确性、模型输出偏见和规则遵守程度。 7. 评估对齐程度可采用3H模型,即Helpful(有帮助)、Honest(诚实)、Harmless(无害),并依赖一套指标体系进行量化评估。 8. 企业部署时的注意事项包括设计合适的评价方法、建立闭环的反馈机制和可解释的奖励机制。 9. 行为对齐未来的发展趋势包括多模型互评机制、多维反馈融合机制和可解释性奖励机制,以提升模型的长期稳定能力。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大模型安全实战课》,新⼈⾸单¥59
《大模型安全实战课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论