20|找准方向:如何有效评估与改进RAG应用
叶伟民
你好,我是叶伟民。
前面三章我们讲述了三个实战案例,实现了 0 到 1 的突破,但是它们都很简陋,需要持续改进。最后一章我们就来学习如何改进 RAG 应用的检索质量。
改进质量的第一步是找到正确的方向。那么如何找到正确的方向呢?
首先我们要明确业务目标,然后根据业务目标制定指标,再根据实际的指标值改进检索技术。这种方法一步到位,但是相当理想,现实中很难实现,因为我们很难马上找到完全吻合自己业务的指标实现。
于是就有了接下来这种做法——先明确业务目标,然后找到现成的指标实现库,再根据实际的指标值改进检索技术和修改指标实现。你可能要在调整了 N 轮之后,才能得出完全吻合自己业务的指标实现,但这个方式胜在接地气,而且很符合软件工程师所熟悉的迭代作业模式。
那么都有哪些现成的指标实现库呢?
评估指标实现库
推荐它的理由有三条:
与竞品相比,文档相对较完备。
专业度比较高,专注于做 RAG 评测。
支持与 LLamaIndex、LangChain 等 11 种 RAG 框架集成。
Ragas 目前实现了十项评估指标,我们挨个来看看。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 推荐使用Ragas作为RAG应用的评估指标库,因为其文档完备、专业度高,支持多种RAG框架集成。 2. Ragas实现了十项评估指标,包括忠实度、答案相关性、上下文查准率、上下文利用率、上下文查全率、上下文实体查全率、答案语义相似度、答案正确度、特定领域评估和摘要分数。 3. 采集评估所需基础数据的方法是通过用户提供的反馈,包括好评和差评,然后对这些结果进行分析和标注。 4. 实现用户提供反馈的界面是通过添加好评和差评按钮。 5. 实现ORM模型是通过添加好评和差评两个字段,以便管理员后台查看和分析数据。 6. 注册到管理员后台,将对话记录添加到管理员后台,方便数据标注员分析数据。 7. 数据标注员通过管理员后台下载数据,通过点击好评或差评按钮来过滤数据,或者通过批量下载所有数据进行分析。 8. 使用Django管理员数据导入导出库,安装并配置该库,以便管理员可以通过点击导出按钮来下载数据。 9. 应用以上类似操作在诊断调试部分,开发人员也可以批量下载数据来诊断调试RAG应用。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》,新⼈⾸单¥59
《RAG 系统实战课 》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论