01|数据处理:把企业知识组织起来
王吕
本门课程为精品小课,不标配音频
万丈高楼平地起,想要做好企业大模型应用,数据就是地基。
你好,我是王吕,今天我们正式开始第一讲的学习。大模型想要变成生产力,目前还有两个制约因素,第一个是交互过程中的长文本,第二个是内容的实时更新,RAG 就是为解决这两个问题诞生的。
在传统的应用开发中,我们写程序是把数据一条一条存进数据库中,这可能是关系型数据库,也可能是非关系型数据库,数据库保留了应用的全部记忆。而在 AI 时代,向量数据库(Vector Database)充当了这一角色,在 RAG 系统中,数据通常被转换为高维向量形式,使得语言模型能够进行高效的语义相似度计算和检索。在向量数据库中,查找变成了计算每条记录的向量近似度,然后按照分值倒序返回结果。RAG 就是如何存取向量的方法论,根据不同的实现策略,还衍生出了不同的 RAG 技术,比如利用图结构表示和检索知识的 GraphRAG,结合知识图谱增强生成能力的 KGA2G(Knowledge Graph Augmented Generation)等等。
尽管 AI 应用的数据建模与传统应用有相似之处,但它更强调数据的语义表示和关联性,以支持更灵活的查询和推理。因此,高质量的数据处理不仅影响检索的准确性,还直接决定了语言模型生成内容的质量和可靠性。这正是我们将数据处理作为整个课程首要内容的原因。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. RAG系统解决了长文本交互和内容实时更新问题,利用向量数据库进行高效的语义相似度计算和检索。 2. 业务需求决定了数据的流向和处理方式,需要统一不同数据源的数据并选择合适的Embedding模型和向量数据库。 3. 数据建模需要考虑向量数据库的数据结构和一些经验,如向量维度的一致性、payload的设计和线上环境的部署。 4. 保持数据更新和质量监控是数据处理流程中的重要环节,需要构建自动触发更新数据流程的应用,并定期监控数据质量,剔除无效或低效内容.
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《LLM & RAG 快速应用小册》
《LLM & RAG 快速应用小册》
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论