19|奖励模型:为什么要用评估专家及其设计方案
蓝金伟

你好,我是金伟。
通过之前的项目和课程我相信你已经了解到,大模型最根本的价值就是替代人的工作,而在训练大模型的过程中,还有很多操作是需要人工的。比如数据工程里的数据质量检查、模型评估阶段的人工测评等。
我们之前提出过类似的问题:这些人工操作真的离不开人吗?可以用大模型替代吗?
这节课我们就开始探讨这个问题。
关于这个问题,我的答案是使用评估专家模型技术,让这些过程实现完全无人化。你可以把评估专家模型看做是大模型项目里技术难度最高的部分,它的思想也完全适用于你将来利用大模型解决其他行业问题。
ChatGPT 的奖励模型
在开始说评估专家模型到底是什么之前,我想先带你回顾一下 ChatGPT 在 RLHF 强化学习阶段里奖励模型的概念。通过这个概念的回顾,我们能搞清楚评估专家模型的来龙去脉。
先理解第一个层次,Reward Modeling 奖励模型最终实现了全自动地评估 ChatGPT 的输出并为其打分,以便和人类价值观对齐。这个自动化的 evaluate 评估 - 打分能力实际上已经等同于人类的能力。
我们举一个例子,实际上大模型输出的时候,如果要两个结果 2 选 1,有的时候人都不一定能选得很好,因为每个人其实评估标准并不一样,但 Reward Modeling 奖励模型需要做出良好的选择符合大多数人的期望。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 评估专家模型在大模型项目中的概念、作用和重要性,以及其应用场景。 2. ChatGPT中的奖励模型在评估大模型输出质量方面的作用、实现过程和重要性。 3. 评估专家模型实例——Llama Guard 3模型在内容安全性评估方面的应用和实现过程。 4. 评估专家模型的设计思路和方法,包括模型训练方法和数据集的准备,以及不同场景下的适用情况。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型项目落地实战》,新⼈⾸单¥59
《AI 大模型项目落地实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论