欢迎来到模块五!前四个模块,我们一路给 Agent 赋能——架构思维让它选对范式,工具和 Skills 让它能干活,上下文工程让它有记忆,协作设计让它组团队。到现在,你的 Agent 团队功能上是完整的:能推理、能调工具、能记事、能分工。
但"能干活"和"能上生产"之间,隔着一个巨大的鸿沟。一个团队在测试环境跑得好好的,到了生产环境——Agent 在后台陷入死循环跑了 264 小时(十几天!),直到月底账单出来才发现烧掉了 $70,000+,Agent 编造的功能描述上线 3 天传统监控一片绿……这些不是假设场景,是真实的工程事故。模块五做的事,就是把"能干活"和"能上生产"之间的鸿沟填上——可观测性、可靠性、安全,三课把企业级加固补完。

今天是模块五的第一课,也是整个模块的地基。核心就一句话:你无法约束你看不见的东西。 想给 Agent 加重试、加熔断、加成本围栏——好,那第一个问题:你知道它现在在干什么吗?
Agent 的可观测性,本质就是给 Agent 的运行过程装上"黑匣子"——不是 Agent 自己写的日记,而是外部独立的飞行记录仪。
这个类比很重要。传统软件的可观测性有三支柱:Metrics(指标)、Logging(日志)、Tracing(追踪)。但在 Agent 场景下,这三支柱的含义发生了质变:
