Q6｜Agent：当前发展还存在哪些问题？

向邦宇

作者介绍：向邦宇，阿里巴巴代码平台负责人
Q：智能体当前发展还存在哪些问题？这些问题会随着开源模型的进步而消失吗？
(注：以下内容截取自向邦宇的文章《从“人驱动”到“模型驱动”：聊聊 Agent 在 2025 年的爆发与挑战》，若有异议，请以文章内容为准）
向邦宇：Agent 存在的挑战不仅仅是一次性就把事情做好，而是在一个长链路任务下需要具备反思的能力。
图片来源网络
Agent 难以从错误的长轨迹中恢复（Difficult to recovery in long trajectory）
在任务执行过程中，智能体可能选择了错误的动作序列，导致偏离正确轨迹
智能体需要回顾并修正之前的错误动作，以完成任务
图中左侧展示了智能体在错误轨迹中浪费时间（例如开错门、走错路径），最终未能获得奖励
Agent 也容易陷入局部循环（Stuck into Loops）
智能体可能在某些状态中反复执行相同的动作，陷入局部循环，无法探索新的可能性
图中右侧展示了智能体重复执行“打开厨房门”的动作，未能有效推进任务
智能体需要跳出局部循环，探索更多可能的动作以完成任务
问题会随着开源模型的进步而消失吗？
在之前，训练过程中通过计算 Loss 来降低梯度，从而提升模型效果。这种点对点的模型能力提升，在过去的打榜或 ChatBot 等产品形态中确实取得了巨大成功。然而，在 Agent 场景下，以往极致地优化局部最优解并不一定能成为全局最优解。例如，一个多步骤任务从 a  到 b 再到 c 和 d，虽然每一步都是最优的，但对于整个任务而言，a  直接到 d 可能才是最优路径。过去的经验表明，无论国外模型发布何种新功能，国内的开源模型总能迅速跟进，这一次是否依然能够顺利实现呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. Agent在长链路任务下需要具备反思的能力，包括难以从错误的长轨迹中恢复和容易陷入局部循环。 2. 在Agent场景下，以往极致地优化局部最优解并不一定能成为全局最优解，需要跳出局部循环，探索更多可能的动作以完成任务。 3. 过去的经验表明，无论国外模型发布何种新功能，国内的开源模型总能迅速跟进，但在Agent场景下是否能顺利实现尚不确定。 4. Claude作为一个断档级别的存在，在几乎所有能力上都处于领先地位，但外界对其基础能力强大且数据质量较高的原因一无所知。 5. 大家似乎尚未充分认识到Claude的优秀之处，如何使模型在指令遵循、长上下文理解、规划及反思等方面达到Agent能使用的水平仍是一个问题。 6. Claude 3.5 Sonnet发布已有一段时间，但外界对其训练方法或标注手段使其具备强大能力的了解仍较有限。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《致程序员：AI 百问百答》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论