26|冷却期与指数退避:如何让故障恢复既快又稳?
Henry

你好,我是 Henry,欢迎来到《OpenClaw 核心原理与实战》。
三级故障转移链:认证轮换、Thinking 降级、模型 Fallback,我们知道了当 Claude API 错误时系统会先尝试换 API Key,不行再降 Thinking 参数,最后再换模型。但当一个 API Key 因为 429 被标记为“不可用”后,什么时候可以再试?
这个问题看似简单,实则是整个故障恢复系统中最精密的部分。太早重试可能无效重试浪费请求配额;太晚重试,用户本可以 1 分钟后恢复使用主模型,却在 Fallback 模型上等了 10 分钟。
OpenClaw 设计了一套由三个机制组成的精密控制系统:指数退避决定等多久,冷却期半开窗口决定何时给第二次机会,冷却期探测主动感知恢复而非被动等待。同时,对于参数级的故障,还有 Thinking 降级作为补充手段。
Auth Profile 与认证轮换:理解数据结构
在深入退避算法之前,我们需要先理解退避的对象是什么。指数退避作用在 Auth Profile 上,每个 Profile 有独立的冷却状态、错误计数、使用记录。不理解 Profile 的数据结构,就无法理解退避算法为什么这样设计。
首先我们来理解 Auth Profile 三种认证类型,系统定义了三种方式:
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《OpenClaw 核心原理与实战》,新⼈⾸单¥59
《OpenClaw 核心原理与实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论