20｜人类意图对齐，让模型拥有更高的情商

独行

你好，我是独行。
这节课我会向你介绍大模型背后的“大功臣”——Alignment，翻译过来就是与人类意图对齐。Alignment 是一类技术的统称，并非指某一个技术。在第一节课我向你介绍 ChatGPT 为什么崛起的时候，讲到过 NLP 技术的突破，其中之一就是与人类意图对齐，里面最重要的一项技术就是基于人类反馈的强化学习，简称 RLHF。
RLHF 由来我们知道 GPT-3 于 2020 年 3 月份发布，在当时算是一个非常强大的模型，可以使用精心设计的文本提示来引导它执行自然语言任务。但是，GPT-3 也可能产生不真实、有毒或反映有害情绪的内容，原因我们之前讲过，GPT-3 的训练数据主要来自于互联网，而互联网中掺杂了各种各样的内容，有些是正常的，有些则不正常。所以直接输出内容很可能会不符合人类意图，官方称这种情况为“不安全”。
后来为了解决这个问题，OpenAI 基于 RLHF 做了指令微调模型 InstructGPT，使大模型输出的有害内容大大减少，虽然参数少了 100 倍以上，但与 175B 参数的 GPT-3 输出相比，仅有 1.3B 规模参数 InstructGPT 模型的输出更加符合人类意图。我们看一下官网披露的 GPT-3 经过 SFT 和指令微调后，在各种指标方面的对比。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. RLHF是Alignment技术体系中的重要一环，用于让大模型的输出与人类意图对齐。 2. RLHF的实现过程包括收集示范数据并训练监督策略、收集比较数据并训练奖励模型，以及使用强化学习优化奖励模型的策略。 3. RLHF的局限性包括对齐税、英语化和漏网之鱼，需要通过混合训练数据和使用过滤器来解决。 4. 对齐税是指通过RLHF在某些方面与人类意图对齐可能会导致在其他方面表现较差的现象。 5. RLHF的未来是一个复杂的话题，有许多团队专门从事相关研究，包括对齐的难度等级和技术。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型实战高手课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(1)

最新
精选

张申傲
第20讲打卡~ 思考题：个人认为RLHF可以算作一种更加复杂的微调技术，它和传统微调的目的一致，都是通过调整模型的参数来改善它的性能。但是相比于传统微调技术，RLHF不仅有预定义好的标注数据，而且还引入了人类反馈作为奖励信号，相当于强化学习+监督学习，所以应该会比传统的微调技术更加复杂、且更与人类的预期保持一致。
2024-07-12归属地：北京

2

收起评论