Q6|Agent:当前发展还存在哪些问题?
向邦宇

作者介绍:向邦宇,阿里巴巴代码平台负责人
Q:智能体当前发展还存在哪些问题?这些问题会随着开源模型的进步而消失吗?
(注:以下内容截取自向邦宇的文章《从“人驱动”到“模型驱动”:聊聊 Agent 在 2025 年的爆发与挑战》,若有异议,请以文章内容为准)
向邦宇:Agent 存在的挑战不仅仅是一次性就把事情做好,而是在一个长链路任务下需要具备反思的能力。

图片来源网络
Agent 难以从错误的长轨迹中恢复(Difficult to recovery in long trajectory)
在任务执行过程中,智能体可能选择了错误的动作序列,导致偏离正确轨迹
智能体需要回顾并修正之前的错误动作,以完成任务
图中左侧展示了智能体在错误轨迹中浪费时间(例如开错门、走错路径),最终未能获得奖励
Agent 也容易陷入局部循环(Stuck into Loops)
智能体可能在某些状态中反复执行相同的动作,陷入局部循环,无法探索新的可能性
图中右侧展示了智能体重复执行“打开厨房门”的动作,未能有效推进任务
智能体需要跳出局部循环,探索更多可能的动作以完成任务
问题会随着开源模型的进步而消失吗?
在之前,训练过程中通过计算 Loss 来降低梯度,从而提升模型效果。这种点对点的模型能力提升,在过去的打榜或 ChatBot 等产品形态中确实取得了巨大成功。然而,在 Agent 场景下,以往极致地优化局部最优解并不一定能成为全局最优解。例如,一个多步骤任务从 a 到 b 再到 c 和 d,虽然每一步都是最优的,但对于整个任务而言,a 直接到 d 可能才是最优路径。过去的经验表明,无论国外模型发布何种新功能,国内的开源模型总能迅速跟进,这一次是否依然能够顺利实现呢?
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. Agent在长链路任务下需要具备反思的能力,包括难以从错误的长轨迹中恢复和容易陷入局部循环。 2. 在Agent场景下,以往极致地优化局部最优解并不一定能成为全局最优解,需要跳出局部循环,探索更多可能的动作以完成任务。 3. 过去的经验表明,无论国外模型发布何种新功能,国内的开源模型总能迅速跟进,但在Agent场景下是否能顺利实现尚不确定。 4. Claude作为一个断档级别的存在,在几乎所有能力上都处于领先地位,但外界对其基础能力强大且数据质量较高的原因一无所知。 5. 大家似乎尚未充分认识到Claude的优秀之处,如何使模型在指令遵循、长上下文理解、规划及反思等方面达到Agent能使用的水平仍是一个问题。 6. Claude 3.5 Sonnet发布已有一段时间,但外界对其训练方法或标注手段使其具备强大能力的了解仍较有限。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《致程序员:AI 百问百答》,新⼈⾸单¥59
《致程序员:AI 百问百答》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论