2025年AI年度复盘:技术进展、工程落地与真实洞察
黄佳

00:00 / 00:00
1.0x
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
2025 年 AI 技术取得了很多关键进展,大模型具备可靠推理能力,技术向多模态演进,Agent 逐步工程化,RAG 成为企业的基础能力。在 AI 时代,个体需构建深度认知体系,企业需梳理自身业务本体论,方能借助 AI 实现价值跃升。
大家好,我是黄佳。
今天距离 2025 年结束还有大约 20 天,在这个时间点进行一次年度复盘非常有意义。AI 时代的每一年都充满变革和机遇,我个人也收获颇丰。年初,我在极客时间开设了RAG 训练营,并出版了《RAG 实战课》一书;下半年,我推出了关于 MCP 和 A2A 协议的专栏。AI 时代让我们有无数机会去探索,希望大家都能与时俱进。
现在国内已是冬天,大家穿着厚重,而我在新加坡四季如夏,虽然喜欢这种恒定气候,但也怀念国内的四季变化,那让生活更有节奏感。话不多说,今天只有一个小时的分享,我们直接进入主题。
今天下午有读者问了我一个关键的问题:在 Agent 领域,除了我的书籍,还有什么资料可以推荐?我的核心观点是:一定要从第一手资料学习。课程和书籍能快速入门,节省时间,但入门后必须跟进业界领先公司的最新动态。
我认为最前沿的学习来源是 Anthropic、OpenAI 和 Google。例如,Anthropic 网站上的“Engineering at Anthropic”栏目提供最新 Agent 方法论,如 2025 年 10 月 16 日发布的《Equipping Agents with Skills for the Real World》,强调为 Agent 配备公司特定能力(如 PPT 模板或语言风格),这能提升实用性。Anthropic 的 GitHub 仓库(如 Claude Code 和 Agent Skills)代码丰富,Star 数量高,证明其理念领先。学习这些源头资料,能领先业界半年到一年。
OpenAI 的强项在于产品创新,如 Sora、ChatGPT 等,每月发布新功能,划时代产品往往碾压对手。虽然其 Agent 方法论不如 Anthropic 系统,但产品文档(如开发者指南)仍值得学习。Google 的 Gemini 也类似。此外,我唯一认可的 Agent 设计框架是 LangGraph,它从原型到生产都很实用。
总之,学习路径是:先通过极客时间的课程入门,再跟进 Anthropic、OpenAI 和 Google 的一手资料,结合 LangGraph 实践。这样既能快速上手,又能保持领先。
接下来,我们来聊聊今年大模型的整体进展。
我的分享主要分成四个部分:大模型关键技术进展、企业落地的主要痛点、我个人的经验教训,以及 2026 年的趋势展望。
首先,回顾 2025 年,我最深刻的体会是:大模型真的“会推理”了,变得真正聪明了。它不再是 2024 年时那个充满幻觉、不够可靠的“象牙塔玩具”,而成为了一个能够真正思考、可以信赖的助手。如果有人现在还说“AI 用不上、帮不上忙”,这种观点已经不合时宜了。当前大模型的推理能力,在很多场景下已经超越我们身边的专家,我们必须把它用起来。

无论是国内的如 DeepSeek R1、Kimi,还是国外的 Gemini、Claude、ChatGPT,这些模型都具备了强大的推理能力。用好它们,是我们当前的核心任务。
第二点感受是技术正逐渐从纯文本向多模态和物理世界过渡。从机器人到智能助理,一旦为强大的“大脑”配上“身体”,其潜力巨大。虽然这条路还长,但 Sora 2、Nano banana 等模型展现出的视频、动画生成能力,已指明方向。未来我们将越来越多地看到超越文本和代码的多模态应用。目前大多数人还用大模型写代码、生成文本或模板,仍停留在“平面世界”,但它正走向物理世界,发挥更大价值。虽然多模态领域目前仍处于训练和工程化构建阶段,离普通人的日常应用还有距离,但我们今天讨论的重点是应用层,而非模型训练本身。

第三,我认为今年是“AI 的 TCP/IP 时代”的雏形建立之年。2024 年 Anthropic 推出 MCP 协议,开启了 Agent 间的互联;2025 年 4 月 Google 推出 A2A 协议。这两个协议为未来智能体的互操作奠定了基础。虽然全面实现为时尚早,但这是历史必然。2024-2025 年就是 AI 互联网的元年,MCP 和 A2A 协议将推动 AI 基础设施逐步完善,其发展会像互联网和移动互联网一样迅速。如果你的公司正在开发 MCP 服务或推进 Agent 互联,那么恭喜你,你走在了前沿。这些技术积累在未来十年、二十年都会持续发挥价值。

第四个重要进展是本地推理能力的大幅提升,特别是小模型的兴起。以千问 3 为例,这类开源模型物美价廉,让我们能用少量资源(如四张 A100 卡)本地部署千问 3 的 8B 或 20B 版本,处理财务文章检索、数据提取甚至计算等实际任务。本地推理加端侧小模型,让许多应用成为可能。

第五个重要的观察是 Agent 正从 Demo 走向工程化,但这个过程充满挑战。目前还没有成熟到能让 Agent 在企业中顺畅运行的程度,工程化能力尚显不足。成熟的框架和工具调用能力虽已具备,但距离“两个月打造一个高效 Agent”仍不现实。稍后我会详细分享其中的难点。

最后,RAG 已进入复杂系统时代,成为企业的基础能力,而不再是时髦技术。它就像数据库一样,是企业处理内部知识、文档并传递给模型的必备环节——文档分块、向量化、检索、拼接到 Prompt,这些步骤看似简单,背后技术细节却非常复杂。

我想特别强调的是,在刚刚提到的六点技术进展之外,我今年还有一个很大的变化是 ChatGPT、Cursor、Claude Code 这三个工具已经成为我生活中不可或缺的一部分。请注意我说的是“生活”,而不仅仅是工作或学习。它们不是外部的任务,而是如同空气和水一样,自然地融入了我的日常。
它们是我的陪伴者、助手、导师,也是我切磋琢磨的对象。比如今天要和大家分享如何从 OpenAI 学习新技术,我会先和它讨论一番,让我的思路更清晰、表达更全面。可以说,现在无论做什么,我都会习惯性地与 ChatGPT 进行探讨。这种持续的对话与碰撞非常有价值:它更懂我,我也更了解它。
第一个 ChatGPT 你也可以替换为 DeepSeek、Kimi、元宝或豆包,具体用哪个不重要,关键在于你如何使用。不仅仅是学习,更是随时随地的交流。面对这样一个充满智慧的伙伴,不用起来岂不是可惜?
第二个工具是编程工具 Cursor。我几乎时刻都在使用它,因为任何事情,从构思、写文档到做 Excel 表格,只要它能通过工具触及,就没有它不能协助完成的。
第三个工具是 Claude Code,它出现得比 Cursor 稍晚一些。你可以把它理解为一个虚拟的操作系统助理。在配备它的服务器上,无论是服务管理、文件管理还是项目管理,你都可以直接与它对话,从头开始设计和推进一个项目。你不再孤独,以往可能需要一两年完成的项目,现在可能只需两天。你不断地与它沟通,肯定它做得好的地方,指出不足,指导它修正,整个过程非常高效。因此,我极力推荐大家把这些工具用起来。
这算是一个“安利”。如果你尝试后觉得还是原来的工作方式更合适,那可能意味着工具本身还有待完善,或者你的使用方法可以优化,这都值得探讨。当然,有一点必须肯定:我们人类作为架构师和主导者的地位,是无法被取代的。这三个工具深度融入生活,但并未替代人类思考。它们改变的是我们的生活,提升的是我们的效率,让我们变得更强大。
接下来我们谈谈企业落地过程中遇到的主要痛点。根据我的实际项目经验,主要有以下几个方面:
首先,数据准备环节非常具有挑战性。立项时想法很美好,但一到执行阶段就会面临现实问题:你的数据基础是否完备?比如开发一个金融贷款审批 Agent,客户期望很高,但当我们询问“是否有标准化的审批模板”时,对方可能回答“每个贷款流程都不统一”。这种情况下项目就会卡住,不得不先花几个月时间让业务专家统一流程标准。这是非常实际的痛点。

第二个痛点是 RAG 技术细节极其复杂。建议大家参考我的 RAG 课程代码(GitHub 仓库“rag-in-action”),其中涵盖了分层索引、PDF 文档分块读取等具体解决方案。如果这些基础环节处理不当,整个系统就无法有效工作。本质上,这考验的是企业的知识工程能力与现有文档质量水平。

第三个难点是 Agent 的工程化落地。为什么 Agent 在实际应用中常常表现不稳定?很大程度上是因为企业自身的业务流程不够清晰。当上下文工程做得不到位时,Agent 的状态管理就会混乱。这反而凸显了我们工程师的价值:如果大模型能直接套用就完美工作,那我们的专业能力还有什么意义?正是这些痛点体现了我们的不可替代性。

第四个问题是投资回报难以量化。一个 Agent 项目到底要投入多少成本?能带来多少效益?很多收益是隐性的,很难简单说清具体能降本增效多少。但这并不意味着项目不值得做,而是需要我们建立更科学的评估体系。

最后是团队能力结构的问题。2025 年只是 Agent 落地的第一年,要组建一个完整的大模型团队并不容易。我们需要的不只是会写提示词的工程师,而是能洞察企业流程、整合前后端能力的复合型人才,更像是对 AI 有深刻理解的产品经理。这对团队提出了很高要求,但也正是我们的机遇所在。

接下来是我个人总结的核心经验与教训。
我认为,当前大模型领域最稀缺的并非模型能力本身。模型技术日新月异,能力持续增强。去年看似无解的问题,今年可能就已攻克;今年我们认为的局限(如幻觉问题),明年很可能也会被解决。真正的瓶颈在于工程化能力。

我们常常做不好,是因为缺乏系统集成能力、稳定的数据管道、完善的错误处理机制以及有效的监控告警体系,我们必须回归工程的本质。现在大家学习大模型调用入门后,但后续我们真正要做的,是回过头来扎实提升真实的工程水平,包括系统集成、前后端、数据流和错误处理等。这是我无法直接传授但却至关重要的基础,只有打好这些基础,才能真正实现大模型落地。
第二点,在企业落地过程中,80% 的痛点源于数据。即便拥有强大的模型和工程能力,没有良好、可用的数据,项目依然难以成功。落地一个智能体,需要解决审批、集成、隐私、安全、多团队协作、高并发处理等无数工程细节,每一项都需要专家级的工程能力。因此,当前的瓶颈已不再是模型本身(不是论文里某个数据集达到 99.9% 的准确率那么简单),而是工程化的能力。

所以,我们每个人都该清楚学习方向:必须夯实软件工程基础,如数据结构、操作系统,并掌握 Kubernetes 调度、Docker 使用等技能,才能将 Demo 转化为真正上线的产品。我能带领大家轻松完成 Demo 阶段,快速上手大模型,搭建聊天机器人或 RAG 系统都没问题。但产品上线背后的诸多细节,需要在真实企业环境中不断探索和积累。
当然,现在学习任何工程环节都有了新方法:你可以借助大模型来学习。关键在于,你的知识面要广,要能指挥大模型完成具体任务,但前提是你自己必须懂行。你不必事必躬亲,但必须深刻理解。例如,不懂运维,就不可能开发出运维智能体。新时代的软件工程和项目开发,要求我们成为领域专家,具备清晰的洞察力、结构感和工程思维,然后指挥大模型在特定领域内执行具体任务。这就是我通过一系列项目实践和观察后,总结出的方法论体系。

同时,我们正进入 Agent 时代,这个时代最需要的是 Agent 架构师。如何成为 Agent 架构师?目前市面上可能还没有成熟的课程,但这正是大家需要自主学习的方向:深入研究 LangGraph、MCP 协议、多智能体协作、记忆系统管理、上下文工程、智能体调度等关键领域,并结合自身的企业项目和业务领域去实操、思考,你就能成为你企业里的第一位 Agent 架构师。
那么,作为个人,我们的核心竞争力在哪里?在于深刻理解项目结构、掌握大模型相关协议、并洞悉企业内的数据流。
关于企业本体论(ontology)这个概念,我想特别强调一下:如果没有对企业业务的真正理解,我们根本无法开展任何有意义的 AI 应用。你的企业、你的项目如何理解这个世界?如何理解业务逻辑?如何进行组织架构和开发流程?如果缺乏这些结构化的表达,我们怎么可能让智能体理解你到底在做什么?这就像"巧妇难为无米之炊"。企业必须首先梳理自己的方法论、数据和业务流程,将其整理成完整的本体论体系,然后才能谈 AI 智能体的开发。

但现实情况是,很多企业的做法完全搞反了:先急着上马智能体项目,开发 MCP 工具,调用大模型处理数据。正确的顺序应该是:先有完整的思想体系和企业本体论,再将这个思想体系赋能给智能体,让它在企业环境中解决问题。我们必须坚持"先思想再系统,先语义再智能"的原则。
如果说 2025 年是智能体工程化的元年,那么 2026 年将是 AI 智能体架构师的时代。我期待每个人都能有勇气为自己贴上这个标签,因为我们正是这个时代的开创者,是第一代智能体架构师。
此外,我想分享几个重要观点:
大模型确实实现了知识的民主化,但人的价值并未消失。关键在于,你能否发现别人看不到的知识关联?你的核心竞争力是什么?过去我们可能依赖记忆力强、编程能力突出,但现在这些优势在大模型面前都相形见绌。真正的价值在于你能否洞察到智能体也无法察觉的企业内部人际关系敏感度,能否深入到他人不愿深入的思考深度。
大模型已经帮我们完成了大量基础工作,我们更应该把时间投入到深度思考中。我们的价值并没有消失,而是发生了上移。

企业的独特价值在于其独有的知识库、积累的数据、用户资源、本体论体系和业务能力。如果丧失这些,我们在 AI 时代就将失去立足之地。同样地,每个人更需要建立自己的知识体系、思维方法和个人本体论。知识不等于能力,能力来自于工程实践和项目打磨。我们必须塑造自己,形成个人的认知体系,才能借助大模型实现认知放大。只有当我们的认知结构既有广度又有深度时,大模型的放大效应才会真正显现。否则,再多的放大也只是在同一个平面上扩展。
今天的分享就到这里,也希望我们在 2026 年里能够学到更多的东西,一起让我们的生活和世界变得更加美好,谢谢。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 2025年AI技术进展:大模型的推理能力显著提升,从纯文本向多模态和物理世界过渡,以及本地推理能力的大幅提升。 2. AI发展趋势展望:AI的互联网元年,MCP和A2A协议将推动AI基础设施逐步完善,以及大模型正从Demo走向工程化,但这个过程充满挑战。 3. 作者个人经验教训:企业在Agent工程化方面仍面临挑战,数据准备环节具有挑战性。 4. 作者推荐的学习路径:从第一手资料学习,跟进Anthropic、OpenAI和Google的一手资料,结合LangGraph实践。 5. RAG 技术细节复杂,需要处理基础环节,考验企业的知识工程能力与文档质量水平。 6. Agent的工程化落地面临挑战,需要清晰的业务流程和上下文工程。 7. 投资回报难以量化,需要建立更科学的评估体系。 8. 企业必须首先梳理自己的方法论、数据和业务流程,将其整理成完整的本体论体系,然后才能谈AI智能体的开发。 9. 大模型已实现知识的民主化,但人的价值并未消失,关键在于发现别人看不到的知识关联和洞察企业内部人际关系敏感度。 10. 企业的独特价值在于其独有的知识库、积累的数据、用户资源、本体论体系和业务能力,每个人也需要建立自己的知识体系和思维方法。
2025-12-23给文章提建议
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《极客时间 VIP · 干货直播稿精选》
《极客时间 VIP · 干货直播稿精选》
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论