大模型安全实战课
赵帅
前极氪汽车资深算法专家
874 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 20 讲/共 35 讲
大模型安全实战课
15
15
1.0x
00:00/00:00
登录|注册

17|对齐技术:RLHF、RLAIF与Constitutional AI与行为控制

你好,我是赵帅。
前面我们讲过许多大模型的输出控制、边界设定和风险防护的知识,很多同学可能都会产生一系列的疑问:模型守规矩的本质到底是什么?我们设置再多的规则、封禁再多的关键词,它真的会自我觉醒吗?为什么有的模型越训越听话,有的却越训越不靠谱?甚至同一句敏感话题,为什么一个模型会婉拒,另一个模型却照单全收?这背后到底靠的是什么机制呢?
说到底,这一节课我们要聚焦的主题就两个关键词,“行为控制”与“价值对齐”。也就是说,当我们希望大模型在遇到复杂、模糊、甚至灰色地带的问题时,依然能输出符合预期的响应风格,这其实已经不是语言建模的问题了,而是它能不能读懂我们想要的行为,愿不愿意配合执行这个层面的问题。而实现这一目标,背后的关键武器就是行为层面的训练机制。
今天我们要正式进入它的核心,包括 RLHF(Reinforcement Learning from Human Feedback),也就是基于人类偏好的强化学习,和 RLAIF(Reinforcement Learning with AI Feedback),也就是用 AI 替代人类进行反馈标注的机制,以及 Constitutional AI,一种基于“成文原则”的对齐方式。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 行为对齐技术包括RLHF、RLAIF和Constitutional AI,旨在让大模型在复杂、模糊的问题中输出符合预期的响应风格。 2. RLHF的核心技术是基于人类偏好的强化学习,通过预训练、奖励模型构建和强化微调三个阶段,让模型更符合人类的审美、习惯和价值判断。 3. RLAIF是一种更“划算”的方法,使用“审稿模型”来评估模型生成的内容,从而实现自动化的打分和反馈,但存在幻觉传播和评分模型质量的风险。 4. Constitutional AI的核心理念是给模型一套行为准则,让它在生成内容时自己对照规则修正输出,不依赖人工标注和评分模型,但效果高度依赖于制定的“宪法”是否清晰、严谨、适度。 5. 行为对齐技术的实战价值在于适用于各种场景,如智能客服机器人、医疗问答助手和代码辅助工具,以确保模型输出符合人类期望。 6. 行为对齐不等于绝对安全,各技术路线存在局限,如评分准确性、模型输出偏见和规则遵守程度。 7. 评估对齐程度可采用3H模型,即Helpful(有帮助)、Honest(诚实)、Harmless(无害),并依赖一套指标体系进行量化评估。 8. 企业部署时的注意事项包括设计合适的评价方法、建立闭环的反馈机制和可解释的奖励机制。 9. 行为对齐未来的发展趋势包括多模型互评机制、多维反馈融合机制和可解释性奖励机制,以提升模型的长期稳定能力。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大模型安全实战课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)