AI 大模型项目落地实战
蓝金伟
AI 创业者,前新浪网技术专家
2746 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 22 讲/共 26 讲
AI 大模型项目落地实战
15
15
1.0x
00:00/00:00
登录|注册

21|正反馈和负反馈:如何将评估专家应用到大模型测评中?

你好,我是金伟。
上节课说的数字孪生的数据质量好坏判断,是一个典型的符合预期 / 不符合预期的二值评估场景,那在大模型最核心的结果测评步骤里,基于私有 task 结合评估专家的评估则可以转为一个典型的二值倾向性评估。这个过程如何实现完全自动化呢?这就是这节课的主要内容了。
我们知道,一个 DPO 的倾向性评估意味着需要在两个输出之间选择倾向性,那对大模型结果而言,可以用前后两个版本的大模型输出比较,也可以在大模型输出和人类答案之间比较。这个问题的核心还是在测评算法的选择上。

评分算法

我们先来看一下不同的评估方法的核心原理。之前的课程提到,传统的大模型评估主要依赖人工评估的评分,人工评估就是对大模型训练完成后形成输出做出好和不好的打分,具体分值是 1 分和 0 分。
如果是评估专家来做评估,则是大模型替代人类评估判断,得出评分 1 还是 0。私有 task 传统的方式是用语义距离等算法来判断评分 1 还是 0,如果将语义距离算法改为评估专家算法,还是判断评分 1 还是 0。
这里的评分 1 就是正反馈,评分 0 就是负反馈。
当然,具体项目里的大模型评估要根据实际需求来做评分算法,也不都是 1 和 0 这样的二值评分。比如我们要微调的大模型能力是对文章的分类,那大模型的输出是一个明确的值,可以用 KTO 类的输出判断方法,也就是输出符合预期 / 不符合预期。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 大模型评估中的正反馈和负反馈是指评估专家对模型输出进行判断,得出评分1或0。 2. 评分算法的选择取决于具体的大模型评估需求,可以采用不同的方法如语义距离算法、KTO类的输出判断方法、DPO的评估方法或RLHF的方法。 3. 对于客观问题的评估,可以采用私有task评估的过程,包括加载BLEU评估函数和计算整体BLEU分数。 4. 在实际工程中,大模型的输出和答案可能存在较大差异,因此需要对模型输出进行关键信息抽取,xFinder是一个解决这一问题的工具。 5. xFinder可以作为信息抽取算法使用,也可以作为整体评估工具来用,支持完全的评估整个结果。 6. xFinder的底层实际上是基于大模型针对信息抽取问题做的微调,可以通过提示词调用微调后的xFinder模型进行答案抽取。 7. xFinder的信息抽取可以提高评估算法的准确率,从而更准确地评估大模型的输出。 8. xFinder还可以作为整体评估工具来使用,是工程中常用的方法。 9. 在大模型评估中,评分只是第一步,真正的核心在于评分的统计细化,最好是多维度的分析不同类问题的评分变化,以便准确地反馈给大模型工程师进行进一步调整。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型项目落地实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部