RAG 系统实战课
叶伟民
盛安德人工智能应用研究院总工程师,RAG 技术专家
158 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 3 讲/共 26 讲
RAG 系统实战课
15
15
1.0x
00:00/09:15
登录|注册

开篇词|RAG,传统开发者加入AI的最佳路线

讲述:叶伟民大小:8.45M时长:09:15
你好,我是叶伟民,一个奋战在技术一线 15 年、开发 AI 应用 5 年多、热衷翻译技术图书的斜杠中年。
AI 一直是计算机领域最高端的名词,堪称皇冠上的明珠。现代计算机行业三大神,香农、冯·诺依曼、图灵都与 AI 相关。计算机领域最高奖项的图灵奖,就是以 AI 鼻祖“图灵”命名的。冯·诺依曼的遗作《计算机与人脑》至今仍然在售。甚至六十多年前,冯·诺依曼指导搞出现代计算机,就是冲着对人脑仿生的理想而来的。
你可能会说,人固然是要有理想的,但是理想不能当饭吃啊。
不过现在情况就不一样了,从去年开始,ChatGPT 爆火。然后到了今年,AIGC/ 大模型应用方面的岗位需求也是水涨船高,并且工资明显高于计算机行业的其他工种。而这些职位之中很多都要求我们会 RAG。
好了,现在理想可以当饭吃了,但是听说 AI 很难,至少要硕士学历,还要懂数学、懂算法。
不用担心,AI 这么大的市场,也分很多工种。从目前的情况来看,对于大模型应用开发工程师,学历不是硬性要求,AI 应用的开发经验更容易让你得到青睐(当然入门之后要想成为大牛,还是需要补学数学和算法的)。
我自己原本是一名传统软件开发者,五年前我有幸进入 AI 行业,主导和参与了多个 AI 应用的开发项目,在这个过程中积累了不少 RAG 的落地经验,掉进过不少坑,并根据这些经验开发了 PDF4AI.cn 这个解析 PDF 的 AI 工具。
在我看来,传统开发者加入这波 AI 浪潮,最快的路线就是 RAG。因为在所有与 AI 相关的项目里,RAG 的门槛最低,对传统开发者最友好。

初学 RAG 有哪些难点?

在和很多传统软件开发同学的交流中,我发现很多人都对 AIGC 感兴趣,但不知道从何入手。我自己并不是 AI 领域科班出身,当初开发 RAG 应用的时候也踩了不少的坑。总结起来主要原因有这些。
第一,只谈技术优点,不聊适用场景和局限。很多网上资料只讲技术的优点和实现,根本不讲这个技术的缺点、局限性和适用场景。
更要命的是,有些缺点和局限,要等你把这个技术应用到项目之后才会体现,那时候已经上了“贼船”都不知道如何是好。以读取 PDF 为例,目前的技术、工具都有局限,例如无法处理好 PDF 换页,导致表格行头被断开、表格尾部数据丢失等等。这也是我研发 PDF4AI.cn 的原因。
第二,只谈收益,不聊技术门槛和投入。以最近大热的 GraphRAG 为例,确实有公司实现得很好,其产品能够月入几千万,然而他们花了 8 个月的时间和无数的技术、人力,才得到这个好结果。GraphRAG 是一个十分好的技术,但打个比方来说,它相当于 RAG 里面的专业马拉松,价值高,难度也很高,不适合初学者入门。
第三,只考虑技术角度,很少评价一个项目的业务价值。其实 RAG 应用的业务价值和技术难度并没有关系。如果入门阶段就直接挑战高技术难度的项目,又没法很快产出业务价值,那么往往情况就会很不乐观,难以坚持。
其实还有很多落地实践之后才能发现的“隐藏坑点”,比如 OpenAI 或者 Azure 对于初学者来说门槛并不低;再比如很多中国特有的场景,像微信小程序流式输出,LangChain 就无法支持。

课程设计

所以,我希望结合自己的学习实践经历,为初学者们定制一门更友好的 RAG 实战课,让你能在学习过程中少一些迷茫困惑,通过一个个实战项目逐步掌握 RAG 里的核心原理与关键技术,最终通过 RAG 提升你转型 AI 赛道的可能性。
针对前面聊过的学习难点,我是这样设计课程的。课程分为四个部分,分别是热身赛、初级篇、中级篇和马拉松,从章节名字就能看出,课程会循序渐进地带你掌握 RAG。这里我把整门课程的知识点和章节的关联整理成了一张表,供你参考。

热身赛

这一章我们会以最低的门槛实现一个 RAG 应用,帮你建立入门 RAG 的信心。我们只需要学习 RAG 最基础的两个概念——对话模式和返回结构化数据,就可以引入 RAG 改造传统 MIS 系统了。这个案例业务价值比较高,同时技术难度最低,能帮助你消除畏难心理,马上获得成就感,激起继续学习的兴趣。

初级篇

有了前面的铺垫,初级篇我们会从 0 到 1 开启一个全新的 RAG 项目,一起开发一个 AI 读报小助手。AI 读报小助手对于我们的日常工作生活比较实用,从而能让我们更有动力持续改进。这个部分会在第一章基础上增加三个重要概念——元数据、文本摘要、机器翻译。学完这部分,对于 RAG 我们就算基本入门了。

中级篇

这一章我们还会再学习 RAG 的三个重要概念:向量与嵌入模型、向量数据库、通过相似度来检索知识。之后我们来打造一个支持模糊检索的工单辅助系统。其实这个项目相当于面向公司内部的客服系统,这样既充分锻炼了我们的 RAG 开发能力,又可以产出一定的业务价值。

马拉松

最后一章的理念是授人以鱼,不如授人以渔。我会结合自己的 RAG 开发、优化经验,带你了解 RAG 应用的评估改进方法,再结合两个具体例子讲解 RAG 应用的优化方案。这一章我们将会探讨 LangChain、LlamIndex 等 RAG 框架,还会了解 GraphRAG 等 13 种 RAG 前沿技术,更重要的是掌握如何借鉴先进技术的长处,持续提升自己的 RAG 应用质量。
为了尽量降低同学们的学习门槛,并且考虑到我们的特殊国情,课程里很多细节也做了精心安排。比如:
我们没有使用 OpenAI / Azure GPT 大模型,而是使用了免费的百度文心大模型。
我们没有使用 Faiss 来存储向量,而是使用了有完善 UI 支持、门槛最低的 Pgvector。
我们没有使用 OpenAI / Azure 嵌入模型,而是使用了免费的、开源的、不需要 GPU 支持也能跑得很好的智谱 BPE 嵌入模型。
为了让大家专注于 RAG 学习本身,我们示例代码的函数和变量尽量使用中文。在最后一节课,再使用 AI 将这些函数和变量改成规范化的英文。
最后,我们先睹为快,一起预览一下课程里实战案例的效果。
其中实战案例 1 是这样的。
实战案例 2 是这样的。
实战案例 3 是这样的。
相信你也感受到了,这门课并不追求面面俱到,而是更注重学以致用,带你用最简单省力的方式,快速上手 RAG 应用开发。
当然,再容易的课程也需要我们行动起来,敲出第一行代码。那还等什么呢?行动起来吧!欢迎你和我一起学习 RAG,成为 AIGC 时代的行动派!
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 传统软件开发者加入AI浪潮的最佳路线是RAG,因为RAG的门槛最低,对传统开发者最友好。 2. 初学RAG的难点包括只谈技术优点、只谈收益不考虑技术门槛和投入、只考虑技术角度而不评价项目的业务价值等。 3. 课程设计分为热身赛、初级篇、中级篇和马拉松,通过实战项目逐步掌握RAG的核心原理与关键技术。 4. 热身赛阶段将实现一个RAG应用,帮助建立入门RAG的信心。 5. 初级篇将开发一个AI读报小助手,学习元数据、文本摘要和机器翻译等概念。 6. 中级篇将学习向量与嵌入模型、向量数据库和模糊检索,打造一个支持模糊检索的工单辅助系统。 7. 马拉松阶段将探讨RAG应用的评估改进方法,讲解RAG前沿技术,以及如何持续提升RAG应用质量。 8. 课程设计考虑了降低学习门槛,使用免费的大模型和开源的嵌入模型,以及使用中文示例代码。 9. 课程注重学以致用,带学员用最简单省力的方式快速上手RAG应用开发。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
初学 RAG 有哪些难点?
课程设计
热身赛
初级篇
中级篇
马拉松
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)