欢迎回来!上节课我们搭好了可观测性的地基——Hook 骨架 + Langfuse 全链路追踪。现在你能看见 Agent 的每一步了:第几轮推理、调了什么工具、花了多少 token。

但这里有个问题:你不可能一直盯着 Dashboard。 Agent 凌晨三点触发了一个任务,你不在;周末跑了一批数据处理,你不看。就算你看了,看见 Agent 第 47 轮还在重复搜索——然后呢?你能做的只是手动停掉它,但损失已经发生了。
观测解决的是看见的问题。但真正让 Agent 变得可靠的,不是看见,而是自动干预。利用上节课搭好的 Hook 骨架,在关键节点上挂载策略——不是记录日志,而是在问题发生的那一刻就拦截。这节课我们做的就是这件事:在 30 课的 Hook 骨架上插入三个可靠性策略,让系统自己保护自己。
💡 课程说明:本节代码已同步至 GitHub,地址:https://github.com/kid0317/crewai_mas_demo/blob/main/m5l31/
在给出方案之前,先看看 Agent 在生产环境里最常遇到的三个可靠性问题。它们分别指向我们今天要实现的三个策略。

需要提前说明的是:课程中的三个痛点是通用痛点——所有 Agent 系统都会遇到。但你在自己的业务里,一定要发现自己的痛点。比如金融场景,Agent 在工具请求中发出了用户身份证号,你可能就要立刻拦住它;代码场景,Agent 提交的代码没过单测,你也要在 Hook 层拦截。这些业务专属的护栏策略,同样可以用我们今天搭的框架来实现——写一个策略类,挂到 Hook 上就行。
