19|AIOps 故障发现:我们如何看到肉眼看不到的故障?
白园
你好,我是白园。
之前我们学习了如何系统性的添加监控,以及监控在故障优化中的关键作用。现在,我们将转向那些传统方法难以解决的问题,并探讨怎么通过引入机器学习技术来克服这些挑战。这节课我会重点介绍监控与人工智能结合,会产生哪些创新性的解决方案。
AI 主要解决了监控中的三个难题
监控多而不同
“多而不同”指的是在监控过程中需要处理大量且各不相同的数据曲线。例如,我们可能需要对不同运营商和地区的流量数据进行细分。细分后,我们可能会看到上百条不同的数据曲线,每条曲线都需要特定的监控规则。显然,为每一条曲线单独设置监控规则不仅工作量巨大,而且从人力成本的角度来看也不切合实际。
因此,我们可以寻求 AI 的帮助,在不增加额外规则的情况下,有效监控这些众多的曲线。
曲线出现细微变化
“细微变化”的问题指的是那些在特定场景下难以通过常规分析方法(如同环比)察觉到的微小变化。例如,观察下面的图片,你会发现变化非常微小。这种微小的差异很难被传统方法捕捉到。如果设置的阈值过低,可能会导致大量误报。关键在于如何设计一个既能有效识别这类问题又能够最小化误报的策略。
多指标联合判断
联合判断涉及在多个关键指标同时表现出异常时,如何进行综合分析,确定是否真的存在问题。这里举个例子,比如 A、B 两个指标同时升高,同时降低都是正常情况。只有一个升高一个降低才是异常。这个过程需要 AI 的协助,它能够分析这些指标之间的相互关系和影响,从而准确判断是否确实发生了异常情况。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. AIOps解决了监控中的三个难题:监控多而不同、曲线出现细微变化、多指标联合判断。 2. AI技术可以帮助有效监控大量不同的数据曲线,避免设置大量监控规则。 3. AI可以识别难以察觉的微小变化,减少误报,提高监控准确性。 4. 多指标联合判断需要AI的协助,分析指标之间的相互关系,准确判断是否存在异常情况。 5. 决策树分类器可用于层次化分析多指标联合判断,提高问题识别和处理效率。 6. AI与监控结合的工程实现包括离线模型训练和实时检测报警两个主要流程。 7. 传统监控结合智能模型可以提升监控效率,通过深入分析和总结提供关键的分析结论。 8. AI与监控结合能解决多而不同、细微变化、多指标综合判断等问题,采用孤立森林、决策树、相关系数、形变分析等算法提升业务监控效率。 9. 目前业界有多种优秀的异常检测解决方案,如美团的形变分析和百度的频繁抖动和毛刺问题解决方案,可根据业务场景进行选择和组合。 10. 在工作中,传统的同环比无法解决的问题,需要靠AI才能得到解决的案例和算法,值得进一步探讨和分享。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 奔跑的阿飞看完以后专业术语还是不少的,对于中小企业来说,对AIops做下了解即可,用好相关的云平台的AIops相关工具和平台即可。2024-08-26归属地:浙江
收起评论