开篇词|RAG,传统开发者加入AI的最佳路线
叶伟民
讲述:叶伟民大小:8.45M时长:09:15
你好,我是叶伟民,一个奋战在技术一线 15 年、开发 AI 应用 5 年多、热衷翻译技术图书的斜杠中年。
AI 一直是计算机领域最高端的名词,堪称皇冠上的明珠。现代计算机行业三大神,香农、冯·诺依曼、图灵都与 AI 相关。计算机领域最高奖项的图灵奖,就是以 AI 鼻祖“图灵”命名的。冯·诺依曼的遗作《计算机与人脑》至今仍然在售。甚至六十多年前,冯·诺依曼指导搞出现代计算机,就是冲着对人脑仿生的理想而来的。
你可能会说,人固然是要有理想的,但是理想不能当饭吃啊。
不过现在情况就不一样了,从去年开始,ChatGPT 爆火。然后到了今年,AIGC/ 大模型应用方面的岗位需求也是水涨船高,并且工资明显高于计算机行业的其他工种。而这些职位之中很多都要求我们会 RAG。
好了,现在理想可以当饭吃了,但是听说 AI 很难,至少要硕士学历,还要懂数学、懂算法。
不用担心,AI 这么大的市场,也分很多工种。从目前的情况来看,对于大模型应用开发工程师,学历不是硬性要求,AI 应用的开发经验更容易让你得到青睐(当然入门之后要想成为大牛,还是需要补学数学和算法的)。
我自己原本是一名传统软件开发者,五年前我有幸进入 AI 行业,主导和参与了多个 AI 应用的开发项目,在这个过程中积累了不少 RAG 的落地经验,掉进过不少坑,并根据这些经验开发了 PDF4AI.cn 这个解析 PDF 的 AI 工具。
在我看来,传统开发者加入这波 AI 浪潮,最快的路线就是 RAG。因为在所有与 AI 相关的项目里,RAG 的门槛最低,对传统开发者最友好。
初学 RAG 有哪些难点?
在和很多传统软件开发同学的交流中,我发现很多人都对 AIGC 感兴趣,但不知道从何入手。我自己并不是 AI 领域科班出身,当初开发 RAG 应用的时候也踩了不少的坑。总结起来主要原因有这些。
第一,只谈技术优点,不聊适用场景和局限。很多网上资料只讲技术的优点和实现,根本不讲这个技术的缺点、局限性和适用场景。
更要命的是,有些缺点和局限,要等你把这个技术应用到项目之后才会体现,那时候已经上了“贼船”都不知道如何是好。以读取 PDF 为例,目前的技术、工具都有局限,例如无法处理好 PDF 换页,导致表格行头被断开、表格尾部数据丢失等等。这也是我研发 PDF4AI.cn 的原因。
第二,只谈收益,不聊技术门槛和投入。以最近大热的 GraphRAG 为例,确实有公司实现得很好,其产品能够月入几千万,然而他们花了 8 个月的时间和无数的技术、人力,才得到这个好结果。GraphRAG 是一个十分好的技术,但打个比方来说,它相当于 RAG 里面的专业马拉松,价值高,难度也很高,不适合初学者入门。
第三,只考虑技术角度,很少评价一个项目的业务价值。其实 RAG 应用的业务价值和技术难度并没有关系。如果入门阶段就直接挑战高技术难度的项目,又没法很快产出业务价值,那么往往情况就会很不乐观,难以坚持。
其实还有很多落地实践之后才能发现的“隐藏坑点”,比如 OpenAI 或者 Azure 对于初学者来说门槛并不低;再比如很多中国特有的场景,像微信小程序流式输出,LangChain 就无法支持。
课程设计
所以,我希望结合自己的学习实践经历,为初学者们定制一门更友好的 RAG 实战课,让你能在学习过程中少一些迷茫困惑,通过一个个实战项目逐步掌握 RAG 里的核心原理与关键技术,最终通过 RAG 提升你转型 AI 赛道的可能性。
针对前面聊过的学习难点,我是这样设计课程的。课程分为四个部分,分别是热身赛、初级篇、中级篇和马拉松,从章节名字就能看出,课程会循序渐进地带你掌握 RAG。这里我把整门课程的知识点和章节的关联整理成了一张表,供你参考。
热身赛
这一章我们会以最低的门槛实现一个 RAG 应用,帮你建立入门 RAG 的信心。我们只需要学习 RAG 最基础的两个概念——对话模式和返回结构化数据,就可以引入 RAG 改造传统 MIS 系统了。这个案例业务价值比较高,同时技术难度最低,能帮助你消除畏难心理,马上获得成就感,激起继续学习的兴趣。
初级篇
有了前面的铺垫,初级篇我们会从 0 到 1 开启一个全新的 RAG 项目,一起开发一个 AI 读报小助手。AI 读报小助手对于我们的日常工作生活比较实用,从而能让我们更有动力持续改进。这个部分会在第一章基础上增加三个重要概念——元数据、文本摘要、机器翻译。学完这部分,对于 RAG 我们就算基本入门了。
中级篇
这一章我们还会再学习 RAG 的三个重要概念:向量与嵌入模型、向量数据库、通过相似度来检索知识。之后我们来打造一个支持模糊检索的工单辅助系统。其实这个项目相当于面向公司内部的客服系统,这样既充分锻炼了我们的 RAG 开发能力,又可以产出一定的业务价值。
马拉松
最后一章的理念是授人以鱼,不如授人以渔。我会结合自己的 RAG 开发、优化经验,带你了解 RAG 应用的评估改进方法,再结合两个具体例子讲解 RAG 应用的优化方案。这一章我们将会探讨 LangChain、LlamIndex 等 RAG 框架,还会了解 GraphRAG 等 13 种 RAG 前沿技术,更重要的是掌握如何借鉴先进技术的长处,持续提升自己的 RAG 应用质量。
为了尽量降低同学们的学习门槛,并且考虑到我们的特殊国情,课程里很多细节也做了精心安排。比如:
我们没有使用 OpenAI / Azure GPT 大模型,而是使用了免费的百度文心大模型。
我们没有使用 Faiss 来存储向量,而是使用了有完善 UI 支持、门槛最低的 Pgvector。
我们没有使用 OpenAI / Azure 嵌入模型,而是使用了免费的、开源的、不需要 GPU 支持也能跑得很好的智谱 BPE 嵌入模型。
为了让大家专注于 RAG 学习本身,我们示例代码的函数和变量尽量使用中文。在最后一节课,再使用 AI 将这些函数和变量改成规范化的英文。
最后,我们先睹为快,一起预览一下课程里实战案例的效果。
其中实战案例 1 是这样的。
实战案例 2 是这样的。
实战案例 3 是这样的。
相信你也感受到了,这门课并不追求面面俱到,而是更注重学以致用,带你用最简单省力的方式,快速上手 RAG 应用开发。
当然,再容易的课程也需要我们行动起来,敲出第一行代码。那还等什么呢?行动起来吧!欢迎你和我一起学习 RAG,成为 AIGC 时代的行动派!
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 传统软件开发者加入AI浪潮的最佳路线是RAG,因为RAG的门槛最低,对传统开发者最友好。 2. 初学RAG的难点包括只谈技术优点、只谈收益不考虑技术门槛和投入、只考虑技术角度而不评价项目的业务价值等。 3. 课程设计分为热身赛、初级篇、中级篇和马拉松,通过实战项目逐步掌握RAG的核心原理与关键技术。 4. 热身赛阶段将实现一个RAG应用,帮助建立入门RAG的信心。 5. 初级篇将开发一个AI读报小助手,学习元数据、文本摘要和机器翻译等概念。 6. 中级篇将学习向量与嵌入模型、向量数据库和模糊检索,打造一个支持模糊检索的工单辅助系统。 7. 马拉松阶段将探讨RAG应用的评估改进方法,讲解RAG前沿技术,以及如何持续提升RAG应用质量。 8. 课程设计考虑了降低学习门槛,使用免费的大模型和开源的嵌入模型,以及使用中文示例代码。 9. 课程注重学以致用,带学员用最简单省力的方式快速上手RAG应用开发。
2024-09-04给文章提建议
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》,新⼈⾸单¥59
《RAG 系统实战课 》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论