RAG 系统实战课
叶伟民
盛安德人工智能应用研究院总工程师,RAG 技术专家
1728 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 22 讲/共 26 讲
RAG 系统实战课
15
15
1.0x
00:00/00:00
登录|注册

20|找准方向:如何有效评估与改进RAG应用

你好,我是叶伟民。
前面三章我们讲述了三个实战案例,实现了 0 到 1 的突破,但是它们都很简陋,需要持续改进。最后一章我们就来学习如何改进 RAG 应用的检索质量。
改进质量的第一步是找到正确的方向。那么如何找到正确的方向呢?
首先我们要明确业务目标,然后根据业务目标制定指标,再根据实际的指标值改进检索技术。这种方法一步到位,但是相当理想,现实中很难实现,因为我们很难马上找到完全吻合自己业务的指标实现。
于是就有了接下来这种做法——先明确业务目标,然后找到现成的指标实现库,再根据实际的指标值改进检索技术和修改指标实现。你可能要在调整了 N 轮之后,才能得出完全吻合自己业务的指标实现,但这个方式胜在接地气,而且很符合软件工程师所熟悉的迭代作业模式。
那么都有哪些现成的指标实现库呢?

评估指标实现库

评估指标实现库有不少,经过比较、研究、实践,目前我比较推荐 Ragas(Ragas 的网址是https://docs.ragas.io)。
推荐它的理由有三条:
与竞品相比,文档相对较完备。
专业度比较高,专注于做 RAG 评测。
支持与 LLamaIndex、LangChain 等 11 种 RAG 框架集成。
Ragas 目前实现了十项评估指标,我们挨个来看看。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 推荐使用Ragas作为RAG应用的评估指标库,因为其文档完备、专业度高,支持多种RAG框架集成。 2. Ragas实现了十项评估指标,包括忠实度、答案相关性、上下文查准率、上下文利用率、上下文查全率、上下文实体查全率、答案语义相似度、答案正确度、特定领域评估和摘要分数。 3. 采集评估所需基础数据的方法是通过用户提供的反馈,包括好评和差评,然后对这些结果进行分析和标注。 4. 实现用户提供反馈的界面是通过添加好评和差评按钮。 5. 实现ORM模型是通过添加好评和差评两个字段,以便管理员后台查看和分析数据。 6. 注册到管理员后台,将对话记录添加到管理员后台,方便数据标注员分析数据。 7. 数据标注员通过管理员后台下载数据,通过点击好评或差评按钮来过滤数据,或者通过批量下载所有数据进行分析。 8. 使用Django管理员数据导入导出库,安装并配置该库,以便管理员可以通过点击导出按钮来下载数据。 9. 应用以上类似操作在诊断调试部分,开发人员也可以批量下载数据来诊断调试RAG应用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部