SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
1915 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 26 讲/共 29 讲
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

22|AIOps变更管理:如何进行更全面地检查与更精准地阻断?

你好,我是白园。
在我们日常变更的时候需要对指标进行判断和检查,往往会面临两个问题。
第一个问题就是指标众多,数量庞大,一个核心系统的变更检查的指标包括业务指标、系统指标、基础指标,可能多达数百个,如果一个指标检查需要 10s,一次检查可能需要几分钟或者几十分钟,这无疑增加了检查的复杂性,并且会大大增长变更成本和时长。
其次,工程师在分析系统性能的时候,往往难以全面顾及到上下游服务的依赖关系及其健康状况。在进行性能检查的时候,可能会忽略对下游服务的影响,很多时候都是因为忽略上下游的指标的波动而造成严重的故障。
我们既要追求发布的成本和效率,更要注重检查的全面性和准确性,单靠人的力量和精力是远远不够的。
因此,为了实现迅速而精确地分析,我们需要借助一款得力的工具。我给出了一张示意图,你可以看一下,图里展示了在分阶段发布过程中,如何迅速对各阶段的关键指标进行检测与分析,确保系统稳定性。这节课我会重点介绍一款名为智能 checker 的工具,这是百度为解决变更过程中对大量指标进行快速检查而首创的工具。

智能 checker

我们要解决三个层面的监控指标的判断:一是变更服务本身的监控指标,比如自身的错误日志,错误码;二是调用关系的监控指标,比如请求数,延迟,P99 等等;三是上下游服务的自身监控指标的检查,比如机房的变更也是需要关注业务大盘指标的变化的。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. AIOps变更管理中的挑战包括指标众多、复杂性增加、全面性和准确性的需求 2. 自身指标异常检测的核心思想是通过与未发生变化的实例进行比较来判断指标波动是否异常 3. T检验在算法实现中的应用,用于比较两组数据的均值是否存在显著差异 4. 代码示例中的模拟数据生成和T检验的应用 5. 工程实现中的Checker驱动模型、算法模型、指标库和配置文件的功能和作用 6. 智能checker工具在解决AIOps变更管理挑战中的作用 7. 智能checker通过分析服务间的依赖和调用关系,可以识别出潜在的影响范围和关键组件 8. 智能checker通过比较变更前后的指标数据,能够快速识别出性能退化或其他问题 9. 智能checker通过高效地处理大量数据,快速完成对关键指标的检查,从而加速问题发现过程 10. 智能Checker与传统报警支持型异常检测的区别,以及其在大规模异常检测中的应用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部