28 | 故障管理:故障定级和定责
赵成
该思维导图由 AI 生成,仅供参考
故障管理的第一步是对故障的理解,只有正确地面对故障,我们才能够找到更合理的处理方式。今天就来和你分享关于故障定级和定责方面的经验。
故障的定级标准
上期文章中介绍到,如果我们的注意力仅仅盯着故障本身,就非常容易揪着责任人不放,进而形成一些负面效应,所以我们要将更多的注意力放到故障背后的技术和管理问题上。
但是,这并不是说对故障本身就可以不重视,相反,故障发生后,一定要严肃对待。这里就需要制定相应的标准和规范来指导我们的处理过程。这个过程并不是一定找出谁来承担责任,或者一定要进行处罚,而是期望通过这样的过程,让我们能够从故障中深刻地认识到我们存在的不足,并制定出后续的改进措施。
这里有一个关键角色,我们称之为技术支持,也有的团队叫 NOC(Network Operation Center)。这个角色主要有两个职责:一是跟踪线上故障处理和组织故障复盘,二是制定故障定级定责标准,同时有权对故障做出定级和定责,有点像法院法官的角色,而上面的两个标准就像是法律条款,法官依法办事,做到公平公正。
所以,这里的一个关键就是我们要有明确的故障定级标准。这个标准主要为了判定故障影响程度,且各相关利益方能够基于统一的标准判断和评估。
现实情况中,因为各方受到故障的影响不同,对故障影响的理解也不同,所以复盘过程中,经常会出现下面这两种争执场景。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
故障管理中的定级和定责标准是关键的一环,本文分享了关于故障定级和定责方面的经验。在故障定级标准方面,文章强调了技术支持的重要性,以及制定明确的故障定级标准的必要性,以便统一判断和评估故障影响。同时,针对故障定责标准,文章提出了避免推诿扯皮和正视问题的重要性,强调了责任方需端到端地把问题定位清楚,避免责任推卸。此外,文章还介绍了故障定责的几个维度,如变更执行、服务依赖和第三方责任,以及如何在故障复盘时有效减少不和谐氛围的出现。总的来说,本文通过分享蘑菇街的管理执行经验,强调了故障管理中定级和定责标准的重要性,以及如何有效避免推诿扯皮,对于需要深入了解故障管理的读者具有一定的参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《赵成的运维体系管理课》,新⼈⾸单¥59
《赵成的运维体系管理课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(5)
- 最新
- 精选
- Dem关于故障定级标准示例,可能文章没有展开解释的是:后面的2H/4H应该指的是导致故障升级的时长。
作者回复: 你理解的很到位。
2020-07-29 - batman影响面怎么定义2022-10-25归属地:广东1
- Geek_21ce3f通知到位,但是评估不到位的变更如何界定2020-06-281
- 我是病毒对于故障时长是如何定义?如监控没有发现的是如何定义故障时长?故障恢复时间,是以内部测试确认通就是恢复时间还是 以最终回访终端用户恢复确认时间为准呢?2020-05-141
- Raymond吕感觉IT领域也借鉴了传统行业设备管理的经验,MTBF,MTTR等等2020-03-12
收起评论