20|人类意图对齐,让模型拥有更高的情商
独行
你好,我是独行。
这节课我会向你介绍大模型背后的“大功臣”——Alignment,翻译过来就是与人类意图对齐。Alignment 是一类技术的统称,并非指某一个技术。在第一节课我向你介绍 ChatGPT 为什么崛起的时候,讲到过 NLP 技术的突破,其中之一就是与人类意图对齐,里面最重要的一项技术就是基于人类反馈的强化学习,简称 RLHF。
RLHF 由来
我们知道 GPT-3 于 2020 年 3 月份发布,在当时算是一个非常强大的模型,可以使用精心设计的文本提示来引导它执行自然语言任务。但是,GPT-3 也可能产生不真实、有毒或反映有害情绪的内容,原因我们之前讲过,GPT-3 的训练数据主要来自于互联网,而互联网中掺杂了各种各样的内容,有些是正常的,有些则不正常。所以直接输出内容很可能会不符合人类意图,官方称这种情况为“不安全”。
后来为了解决这个问题,OpenAI 基于 RLHF 做了指令微调模型 InstructGPT,使大模型输出的有害内容大大减少,虽然参数少了 100 倍以上,但与 175B 参数的 GPT-3 输出相比,仅有 1.3B 规模参数 InstructGPT 模型的输出更加符合人类意图。我们看一下官网披露的 GPT-3 经过 SFT 和指令微调后,在各种指标方面的对比。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. RLHF是Alignment技术体系中的重要一环,用于让大模型的输出与人类意图对齐。 2. RLHF的实现过程包括收集示范数据并训练监督策略、收集比较数据并训练奖励模型,以及使用强化学习优化奖励模型的策略。 3. RLHF的局限性包括对齐税、英语化和漏网之鱼,需要通过混合训练数据和使用过滤器来解决。 4. 对齐税是指通过RLHF在某些方面与人类意图对齐可能会导致在其他方面表现较差的现象。 5. RLHF的未来是一个复杂的话题,有许多团队专门从事相关研究,包括对齐的难度等级和技术。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型实战高手课》,新⼈⾸单¥59
《AI 大模型实战高手课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 张申傲第20讲打卡~ 思考题:个人认为RLHF可以算作一种更加复杂的微调技术,它和传统微调的目的一致,都是通过调整模型的参数来改善它的性能。但是相比于传统微调技术,RLHF不仅有预定义好的标注数据,而且还引入了人类反馈作为奖励信号,相当于强化学习+监督学习,所以应该会比传统的微调技术更加复杂、且更与人类的预期保持一致。2024-07-12归属地:北京2
收起评论