AI 大模型项目落地实战
蓝金伟
AI 创业者,前新浪网技术专家
2664 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 20 讲/共 26 讲
第五章 专有模型进阶:大模型测评中的评估专家 (1讲)
AI 大模型项目落地实战
15
15
1.0x
00:00/00:00
登录|注册

19|奖励模型:为什么要用评估专家及其设计方案

你好,我是金伟。
通过之前的项目和课程我相信你已经了解到,大模型最根本的价值就是替代人的工作,而在训练大模型的过程中,还有很多操作是需要人工的。比如数据工程里的数据质量检查、模型评估阶段的人工测评等。
我们之前提出过类似的问题:这些人工操作真的离不开人吗?可以用大模型替代吗?
这节课我们就开始探讨这个问题。
关于这个问题,我的答案是使用评估专家模型技术,让这些过程实现完全无人化。你可以把评估专家模型看做是大模型项目里技术难度最高的部分,它的思想也完全适用于你将来利用大模型解决其他行业问题。

ChatGPT 的奖励模型

在开始说评估专家模型到底是什么之前,我想先带你回顾一下 ChatGPT 在 RLHF 强化学习阶段里奖励模型的概念。通过这个概念的回顾,我们能搞清楚评估专家模型的来龙去脉。
先理解第一个层次,Reward Modeling 奖励模型最终实现了全自动地评估 ChatGPT 的输出并为其打分,以便和人类价值观对齐。这个自动化的 evaluate 评估 - 打分能力实际上已经等同于人类的能力。
我们举一个例子,实际上大模型输出的时候,如果要两个结果 2 选 1,有的时候人都不一定能选得很好,因为每个人其实评估标准并不一样,但 Reward Modeling 奖励模型需要做出良好的选择符合大多数人的期望。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 评估专家模型在大模型项目中的概念、作用和重要性,以及其应用场景。 2. ChatGPT中的奖励模型在评估大模型输出质量方面的作用、实现过程和重要性。 3. 评估专家模型实例——Llama Guard 3‍模型在内容安全性评估方面的应用和实现过程。 4. 评估专家模型的设计思路和方法,包括模型训练方法和数据集的准备,以及不同场景下的适用情况。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型项目落地实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)