RAG 系统实战课
叶伟民
盛安德人工智能应用研究院总工程师,RAG 技术专家
1639 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 19 讲/共 26 讲
RAG 系统实战课
15
15
1.0x
00:00/00:00
登录|注册

17|概念详解:通过相似度模糊检索

你好,我是叶伟民。
第 15 节课我们讲到了向量和相似度。我们以后面这五个事物为例,讲解了如何使用嵌入模型获得具体的向量值:
老婆饼
老婆
夫妻肺片
菠萝
菠萝包
上一节课,我们又学习了如何使用向量数据库存储、更新、删除以上向量值。今天我们就来看看,向量值在 RAG 里的应用,通过计算向量值的相似度来检索知识,这也是 RAG 检索的核心。

RAG 检索的核心——相似度计算

我们先来看这样一个检索案例。
用户输入:我想吃一个老婆饼
系统从数据库里面检索到老婆饼数量为0
然后系统从其他四个事物中检索出一个并返回如下回答
系统回答:老婆饼没有了,我们有__,你需要吗?
那么问题来了。这时候,我们的应用如何从其他四个事物找出“菠萝包”来填充上面的空白之处呢?
相信细心的同学估计已经找到了答案,就是根据相似度进行查找(如果印象不深了可以回看第 15 节课)。换句话说,就是计算四个事物中与“老婆饼”的距离,再返回距离最近的那个。
那么这个距离应该如何计算呢?这就需要我们了解计算距离的几个方法。
L1 距离(曼哈顿距离)
L2 距离(欧几里得距离)
负内积(Negative Inner Product)
余弦距离(Cosine Distance)

L1 距离(曼哈顿距离)

确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. RAG检索的核心是通过计算向量值的相似度来检索知识,使用相似度模糊检索来填充空白。 2. L1距离(曼哈顿距离)和L2距离(欧几里得距离)适用于不同的文本分析场景,如产品评论分析、品牌监测、医疗咨询分析和文本聚类。 3. 负内积适用于主题建模、文本分类、情感分析、文档去重等NLP任务。 4. 相似度计算方法包括L1距离、L2距离、负内积和余弦距离,选择应根据具体应用场景和需求确定,以获得更准确的检索结果。 5. LangChain提供了相似度计算的具体实现方法,如使用L1距离和L2距离计算其他事物与特定事物的相似度。 6. 余弦距离通过计算两个向量的余弦相似度来衡量它们之间的差异,适合文本表示、不同长度和文本生成任务。 7. 余弦距离在向量数据库pgvector和LangChain中有具体的实现方法。 8. 余弦距离是最适合RAG的相似度计算方法。 9. 计算两个向量之间距离不止以上四种方法,但以上四种方法是本文重点介绍的相似度计算方法。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部