AI 大模型实战高手课
独行
前阿里巴巴高级技术专家,国内某大型互联网公司首席技术官
2852 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 22 讲/共 33 讲
AI 大模型实战高手课
15
15
1.0x
00:00/00:00
登录|注册

20|人类意图对齐,让模型拥有更高的情商

你好,我是独行。
这节课我会向你介绍大模型背后的“大功臣”——Alignment,翻译过来就是与人类意图对齐。Alignment 是一类技术的统称,并非指某一个技术。在第一节课我向你介绍 ChatGPT 为什么崛起的时候,讲到过 NLP 技术的突破,其中之一就是与人类意图对齐,里面最重要的一项技术就是基于人类反馈的强化学习,简称 RLHF。

RLHF 由来

我们知道 GPT-3 于 2020 年 3 月份发布,在当时算是一个非常强大的模型,可以使用精心设计的文本提示来引导它执行自然语言任务。但是,GPT-3 也可能产生不真实、有毒或反映有害情绪的内容,原因我们之前讲过,GPT-3 的训练数据主要来自于互联网,而互联网中掺杂了各种各样的内容,有些是正常的,有些则不正常。所以直接输出内容很可能会不符合人类意图,官方称这种情况为“不安全”。
后来为了解决这个问题,OpenAI 基于 RLHF 做了指令微调模型 InstructGPT,使大模型输出的有害内容大大减少,虽然参数少了 100 倍以上,但与 175B 参数的 GPT-3 输出相比,仅有 1.3B 规模参数 InstructGPT 模型的输出更加符合人类意图。我们看一下官网披露的 GPT-3 经过 SFT 和指令微调后,在各种指标方面的对比。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. RLHF是Alignment技术体系中的重要一环,用于让大模型的输出与人类意图对齐。 2. RLHF的实现过程包括收集示范数据并训练监督策略、收集比较数据并训练奖励模型,以及使用强化学习优化奖励模型的策略。 3. RLHF的局限性包括对齐税、英语化和漏网之鱼,需要通过混合训练数据和使用过滤器来解决。 4. 对齐税是指通过RLHF在某些方面与人类意图对齐可能会导致在其他方面表现较差的现象。 5. RLHF的未来是一个复杂的话题,有许多团队专门从事相关研究,包括对齐的难度等级和技术。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型实战高手课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 张申傲
    第20讲打卡~ 思考题:个人认为RLHF可以算作一种更加复杂的微调技术,它和传统微调的目的一致,都是通过调整模型的参数来改善它的性能。但是相比于传统微调技术,RLHF不仅有预定义好的标注数据,而且还引入了人类反馈作为奖励信号,相当于强化学习+监督学习,所以应该会比传统的微调技术更加复杂、且更与人类的预期保持一致。
    2024-07-12归属地:北京
    2
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部