AI 大模型项目落地实战
蓝金伟
AI 创业者,前新浪网技术专家
2717 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 21 讲/共 26 讲
第五章 专有模型进阶:大模型测评中的评估专家 (2讲)
AI 大模型项目落地实战
15
15
1.0x
00:00/00:00
登录|注册

20|评估策略:如何解决数字孪生在评估专家场景下的缺陷?

你好,我是金伟。
上节课我们说到评估专家的案例和设计模式,这节课我们就用一个实际的例子来说明如何训练一个评估专家。我会带着你实现一个评估专家模型,用于评估数字孪生的数据质量。最后你会看到,这个过程可以用评估专家实现完全自动化。
当然,就像做大模型微调训练一样,要得到一个符合客户需求的大模型不是一件容易的事,在评估专家模型下也是一样的,要实现超过人类的评估水平会面临很多挑战。

评估专家的难点

要实现评估专家,核心的问题还是要提前人工标注数据,人工标注的数据质量好坏直接决定了结果的好坏。可以说,偏好数据质量是奖励模型学习的首要挑战。
偏好数据的来源和标注标准往往不一致,不同标注者可能对同一个问题的偏好有不同理解,导致偏好数据中存在噪声。例如,某些数据可能包含两个相近但质量不同的回复,在对这些回复进行标注时,标注者之间的意见分歧较大。这使得奖励模型在学习过程中难以对数据作出统一的判断。此外,偏好数据的标签也并不总是可靠,在某些情况下,经过训练的奖励模型反而对某些标注产生了负反馈。为了解决数据噪声问题,可以采取标签翻转、损失函数平滑处理以及数据区分度调整等方法来提高数据质量。
数据质量是第一个难点,另外一个难点则是奖励函数的泛化程度。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 评估专家模型的核心问题在于提前人工标注数据,数据质量直接影响结果的好坏,而偏好数据的来源和标注标准不一致,导致数据中存在噪声。 2. 解决数据噪声问题的方法包括标签翻转、损失函数平滑处理以及数据区分度调整,以提高数据质量。 3. 奖励函数的泛化能力是另一个难点,可以通过对比学习的方式来优化奖励函数,以提升其泛化能力。 4. 奖励模型在强化学习中扮演着重要角色,尤其是在RLHF(人类反馈强化学习)中,用于帮助大模型更好地对齐人类的偏好和价值观。 5. 开源的评估专家训练器 `trl` 可以用于训练奖励模型,支持用户在数据集和模型上进行定制的奖励建模,允许对奖励模型进行个性化训练和优化。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型项目落地实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)