17|概念详解:通过相似度模糊检索
叶伟民
你好,我是叶伟民。
第 15 节课我们讲到了向量和相似度。我们以后面这五个事物为例,讲解了如何使用嵌入模型获得具体的向量值:
老婆饼
老婆
夫妻肺片
菠萝
菠萝包
上一节课,我们又学习了如何使用向量数据库存储、更新、删除以上向量值。今天我们就来看看,向量值在 RAG 里的应用,通过计算向量值的相似度来检索知识,这也是 RAG 检索的核心。
RAG 检索的核心——相似度计算
我们先来看这样一个检索案例。
那么问题来了。这时候,我们的应用如何从其他四个事物找出“菠萝包”来填充上面的空白之处呢?
相信细心的同学估计已经找到了答案,就是根据相似度进行查找(如果印象不深了可以回看第 15 节课)。换句话说,就是计算四个事物中与“老婆饼”的距离,再返回距离最近的那个。
那么这个距离应该如何计算呢?这就需要我们了解计算距离的几个方法。
L1 距离(曼哈顿距离)
L2 距离(欧几里得距离)
负内积(Negative Inner Product)
余弦距离(Cosine Distance)
L1 距离(曼哈顿距离)
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. RAG检索的核心是通过计算向量值的相似度来检索知识,使用相似度模糊检索来填充空白。 2. L1距离(曼哈顿距离)和L2距离(欧几里得距离)适用于不同的文本分析场景,如产品评论分析、品牌监测、医疗咨询分析和文本聚类。 3. 负内积适用于主题建模、文本分类、情感分析、文档去重等NLP任务。 4. 相似度计算方法包括L1距离、L2距离、负内积和余弦距离,选择应根据具体应用场景和需求确定,以获得更准确的检索结果。 5. LangChain提供了相似度计算的具体实现方法,如使用L1距离和L2距离计算其他事物与特定事物的相似度。 6. 余弦距离通过计算两个向量的余弦相似度来衡量它们之间的差异,适合文本表示、不同长度和文本生成任务。 7. 余弦距离在向量数据库pgvector和LangChain中有具体的实现方法。 8. 余弦距离是最适合RAG的相似度计算方法。 9. 计算两个向量之间距离不止以上四种方法,但以上四种方法是本文重点介绍的相似度计算方法。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》,新⼈⾸单¥59
《RAG 系统实战课 》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论