01｜数据处理：把企业知识组织起来

王吕

本门课程为精品小课，不标配音频
万丈高楼平地起，想要做好企业大模型应用，数据就是地基。
你好，我是王吕，今天我们正式开始第一讲的学习。大模型想要变成生产力，目前还有两个制约因素，第一个是交互过程中的长文本，第二个是内容的实时更新，RAG 就是为解决这两个问题诞生的。
在传统的应用开发中，我们写程序是把数据一条一条存进数据库中，这可能是关系型数据库，也可能是非关系型数据库，数据库保留了应用的全部记忆。而在 AI 时代，向量数据库（Vector Database）充当了这一角色，在 RAG 系统中，数据通常被转换为高维向量形式，使得语言模型能够进行高效的语义相似度计算和检索。在向量数据库中，查找变成了计算每条记录的向量近似度，然后按照分值倒序返回结果。RAG 就是如何存取向量的方法论，根据不同的实现策略，还衍生出了不同的 RAG 技术，比如利用图结构表示和检索知识的 GraphRAG，结合知识图谱增强生成能力的 KGA2G（Knowledge Graph Augmented Generation）等等。
尽管 AI 应用的数据建模与传统应用有相似之处，但它更强调数据的语义表示和关联性，以支持更灵活的查询和推理。因此，高质量的数据处理不仅影响检索的准确性，还直接决定了语言模型生成内容的质量和可靠性。这正是我们将数据处理作为整个课程首要内容的原因。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. RAG系统解决了长文本交互和内容实时更新问题，利用向量数据库进行高效的语义相似度计算和检索。 2. 业务需求决定了数据的流向和处理方式，需要统一不同数据源的数据并选择合适的Embedding模型和向量数据库。 3. 数据建模需要考虑向量数据库的数据结构和一些经验，如向量维度的一致性、payload的设计和线上环境的部署。 4. 保持数据更新和质量监控是数据处理流程中的重要环节，需要构建自动触发更新数据流程的应用，并定期监控数据质量，剔除无效或低效内容.

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《LLM & RAG 快速应用小册》

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论