智能运维之根因分析
王钊扬
前阿里运维数据挖掘专家 8 年智能运维从业经验。对智能运维相关的业务、产品、数据、算法、工程五个维度均有深入的研究。 ACM/ICPC 北京赛区 银牌 算法技术博客:https://blog.csdn.net/micklongen
7 人已学习
立即订阅
智能运维之根因分析
登录|注册
留言
收藏
沉浸
阅读
分享
手机端
回顶部
付费课程,可试看

视频资源获取失败

根因分析概述:好的根因分系统是什么样的?
云平台产生告警风暴(一):业务场景分析及思路探讨
云平台产生告警风暴(二):如何处理系统中的关联信息?
云平台产生告警风暴(三):如何基于关联信息分析出根因故障呢?
云平台产生告警风暴(四):如何实现根因分析系统?
云平台产生告警风暴(五):案例演示与代码讲解
移动端QPS下降的背后:如何鉴别运营商问题还是软件故障?
行业案例:eBay、美团、百度是如何实现根因分析的?
本节摘要

你好,我是王钊扬。

第一讲,我们先来聊聊如何设计、评估一个根因分析系统。

当前,IT 基础设施的复杂性日益加剧,而与此同时,系统可靠性的高标准需求愈发凸显,众多系统需实现近乎不间断的 7×24 小时服务。企业普遍对关键系统设立了严格的服务水平协议(SLA)指标,这些系统的最低可靠性标准常设定为三个 9 的可用性,即全年故障时间不得超过 8.76 小时。鉴于此,迅速识别并定位根本故障原因(根因分析)变得至关重要。

然而,面对庞大且错综复杂的 IT 基础设施,加之多部门间的紧密协作需求,如何高效地进行故障定位成为了巨大挑战。这恰好是本课程探讨的核心议题:是否存在利用软件手段来加速故障定位过程的方法?如果存在,具体的实施策略又是什么?

登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论