欢迎回来!上节课我们给 Agent 装上了可靠性策略——重试追踪、循环检测、成本围栏,它不会无限循环了,不会烧穿预算了,输出质量也有了校验。
但那一切有个前提:Agent 是善意的,用户输入是正常的。 如果有人在搜索内容里注入了恶意指令呢?如果 Agent 尝试执行 rm -rf / 呢?如果它把你电脑里的所有密码和 API Key 读出来发给别人呢?如果它往一个 3000 人的群里发了不该发的消息呢?甚至——如果你安装一个 Skill,里面藏着一个木马,让你的整台电脑被别人控制呢?这些都不是假设,都是已经发生过的真实案例。今天这节课,我们要面对一个不舒服的现实:Agent 安全与 Chatbot 安全是完全不同的问题。 Chatbot 注入最坏的后果是输出不当内容——尴尬,但不致命。Agent 注入会产生真实副作用:删文件、发请求、泄数据、装木马。

Agent 安全的本质,就是限制 Agent 使用工具的能力边界。
传统 Chatbot 安全关心的是说什么——输出内容有没有违规、有没有泄露隐私。
Agent 安全关心的是"做什么"——它调了哪个工具、传了什么参数、产生了什么副作用。没有工具的 Agent 就是个聊天机器人,聊天机器人说错话最多尴尬。有了工具,Agent 就有了"做事"的能力——而做事就意味着副作用,副作用就意味着风险。
