LLM & RAG 快速应用小册
王吕
极客时间 AI 架构师
14 人已学习
立即订阅
登录后,你可以任选2讲全文学习
LLM & RAG 快速应用小册
15
15
1.0x
00:00/00:00
登录|注册

01|数据处理:把企业知识组织起来

本门课程为精品小课,不标配音频
万丈高楼平地起,想要做好企业大模型应用,数据就是地基。
你好,我是王吕,今天我们正式开始第一讲的学习。大模型想要变成生产力,目前还有两个制约因素,第一个是交互过程中的长文本,第二个是内容的实时更新,RAG 就是为解决这两个问题诞生的。
在传统的应用开发中,我们写程序是把数据一条一条存进数据库中,这可能是关系型数据库,也可能是非关系型数据库,数据库保留了应用的全部记忆。而在 AI 时代,向量数据库(Vector Database)充当了这一角色,在 RAG 系统中,数据通常被转换为高维向量形式,使得语言模型能够进行高效的语义相似度计算和检索。在向量数据库中,查找变成了计算每条记录的向量近似度,然后按照分值倒序返回结果。RAG 就是如何存取向量的方法论,根据不同的实现策略,还衍生出了不同的 RAG 技术,比如利用图结构表示和检索知识的 GraphRAG,结合知识图谱增强生成能力的 KGA2G(Knowledge Graph Augmented Generation)等等。
尽管 AI 应用的数据建模与传统应用有相似之处,但它更强调数据的语义表示和关联性,以支持更灵活的查询和推理。因此,高质量的数据处理不仅影响检索的准确性,还直接决定了语言模型生成内容的质量和可靠性。这正是我们将数据处理作为整个课程首要内容的原因。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. RAG系统解决了长文本交互和内容实时更新问题,利用向量数据库进行高效的语义相似度计算和检索。 2. 业务需求决定了数据的流向和处理方式,需要统一不同数据源的数据并选择合适的Embedding模型和向量数据库。 3. 数据建模需要考虑向量数据库的数据结构和一些经验,如向量维度的一致性、payload的设计和线上环境的部署。 4. 保持数据更新和质量监控是数据处理流程中的重要环节,需要构建自动触发更新数据流程的应用,并定期监控数据质量,剔除无效或低效内容.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《LLM & RAG 快速应用小册》
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部