赵成的运维体系管理课
赵成
《进化: 运维技术变革与实践探索》作者
37830 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 49 讲
开篇词 (1讲)
效率和稳定性最佳实践 (20讲)
赵成的运维体系管理课
15
15
1.0x
00:00/00:00
登录|注册

28 | 故障管理:故障定级和定责

第三方责任
服务依赖
变更执行
正视问题,严肃对待
避免扯皮推诿
可用性和可靠性的衡量指标
P2及以上故障的处理
标准修订和完善
细节沟通讨论
争执场景
判定故障影响程度
P0~P4五个级别
故障复盘中的应用
定责标准的维度
避免扯皮推诿的重要性
目的
不同故障定级的处理策略
故障定级标准的制定
故障定级的标准
技术支持的角色
蘑菇街的管理执行效果
故障管理中的定级和定责标准
故障的定责标准
故障的定级标准
总结
故障管理

该思维导图由 AI 生成,仅供参考

故障管理的第一步是对故障的理解,只有正确地面对故障,我们才能够找到更合理的处理方式。今天就来和你分享关于故障定级和定责方面的经验。

故障的定级标准

上期文章中介绍到,如果我们的注意力仅仅盯着故障本身,就非常容易揪着责任人不放,进而形成一些负面效应,所以我们要将更多的注意力放到故障背后的技术和管理问题上。
但是,这并不是说对故障本身就可以不重视,相反,故障发生后,一定要严肃对待。这里就需要制定相应的标准和规范来指导我们的处理过程。这个过程并不是一定找出谁来承担责任,或者一定要进行处罚,而是期望通过这样的过程,让我们能够从故障中深刻地认识到我们存在的不足,并制定出后续的改进措施。
这里有一个关键角色,我们称之为技术支持,也有的团队叫 NOC(Network Operation Center)。这个角色主要有两个职责:一是跟踪线上故障处理和组织故障复盘,二是制定故障定级定责标准,同时有权对故障做出定级和定责,有点像法院法官的角色,而上面的两个标准就像是法律条款,法官依法办事,做到公平公正。
所以,这里的一个关键就是我们要有明确的故障定级标准。这个标准主要为了判定故障影响程度,且各相关利益方能够基于统一的标准判断和评估。
现实情况中,因为各方受到故障的影响不同,对故障影响的理解也不同,所以复盘过程中,经常会出现下面这两种争执场景。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

故障管理中的定级和定责标准是关键的一环,本文分享了关于故障定级和定责方面的经验。在故障定级标准方面,文章强调了技术支持的重要性,以及制定明确的故障定级标准的必要性,以便统一判断和评估故障影响。同时,针对故障定责标准,文章提出了避免推诿扯皮和正视问题的重要性,强调了责任方需端到端地把问题定位清楚,避免责任推卸。此外,文章还介绍了故障定责的几个维度,如变更执行、服务依赖和第三方责任,以及如何在故障复盘时有效减少不和谐氛围的出现。总的来说,本文通过分享蘑菇街的管理执行经验,强调了故障管理中定级和定责标准的重要性,以及如何有效避免推诿扯皮,对于需要深入了解故障管理的读者具有一定的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《赵成的运维体系管理课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • Dem
    关于故障定级标准示例,可能文章没有展开解释的是:后面的2H/4H应该指的是导致故障升级的时长。

    作者回复: 你理解的很到位。

    2020-07-29
  • batman
    影响面怎么定义
    2022-10-25归属地:广东
    1
  • Geek_21ce3f
    通知到位,但是评估不到位的变更如何界定
    2020-06-28
    1
  • 我是病毒
    对于故障时长是如何定义?如监控没有发现的是如何定义故障时长?故障恢复时间,是以内部测试确认通就是恢复时间还是 以最终回访终端用户恢复确认时间为准呢?
    2020-05-14
    1
  • Raymond吕
    感觉IT领域也借鉴了传统行业设备管理的经验,MTBF,MTTR等等
    2020-03-12
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部