30 | 故障管理:故障应急和故障复盘
赵成
该思维导图由 AI 生成,仅供参考
上周我们分享了故障管理中,应该如何对待故障,怎样做好故障定级和定责方面的管理工作。今天我就和你分享当故障真正发生后,我们在故障通报和故障复盘方面的实践经验。
故障应急
当故障真实发生后,带来的影响不仅仅是技术层面的,更多的是业务层面的,比如用户和商家的批量投诉,交易量下跌,广告资损等等。而这些影响又会产生巨大的外部压力,并传递到技术团队,这时如果没有很好的故障应对机制,技术团队就很容易陷入慌乱,不知所措。
我们能否有效应对这种突发且高压的状况,我觉得有两个方面十分关键。
第一方面,业务恢复预案。
这也是我们在故障应急状态下一定要坚守的第一原则:优先恢复业务,而不是定位问题。这就需要我们事先有充足的预案准备以及故障模拟演练,这就跟我们前面介绍的各种稳定性保障措施相关,通过稳定性平台的建设,与我们能够预见到的,以及我们经历过的故障场景相结合,当发生故障时能够第一时间执行对应的恢复预案。
同时,预案的执行不能仅仅在故障发生时才执行,而是应该把故障模拟和恢复演练放在平时。我在团队中经常传递的一个理念就是:凡是没有演练过的预案,都是耍流氓。也就是如果我们在日常系统稳定的状态下都不敢执行预案,或者执行了没效果,那真到了故障发生后,在更为复杂的状况下,预案 100% 也是不敢做的,因为这种异常状态下,我们还要考虑执行了预案是否会导致次生故障。
关于故障模拟,可以分为不同层面来梳理,比如:
IDC 层面,如电力切换、UPS 切换、核心网络设备切换,单设备故障等,这些故障是可以通过人为破坏进行模拟的,模拟手段相对简单,但是破坏力和影响面会很大,所以做之前一定要准备充分。我们会定期 1~2 个月做一次类似的模拟演练,涉及机房配合的,也会提前跟运营商约定好时间;
系统层面,如 CPU、磁盘 IO、网络 IO、网络时延、丢包等异常场景,这些都有开源或 Linux 系统自带的工具支持,比如 Stress 工具模拟 CPU 升高,dd 模拟磁盘 IO,tc 模拟网络问题;
应用层面,最典型的就是 RT 升高,抛出异常,返回错误码等等,这里还是会用 Spring 的注解功能,在运行时模拟异常状况,然后有针对性地看各种限流降级和开关预案策略能否生效。
关于故障模拟,我再次向你推荐 Netflix 的 Chaos Engineering,介绍得非常全面。
第二方面,有效的组织协调。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
故障管理在IT运维中至关重要,本文分享了故障应急和故障复盘的实践经验。在故障应急方面,强调了业务恢复预案的重要性,以及组织协调和信息透明的必要性。故障复盘阶段则强调了从故障中学习,避免追究责任和实施惩罚,而是着重于技术支持的关键作用和故障定级定责的流程。此外,定期总结故障案例也被提及,以便发现共性问题并进行规划改进。整体而言,本文强调了故障管理的重要性,以及在故障发生时的有效组织协调和信息通报的必要性。文章内容丰富,涵盖了故障应急、复盘和定期总结等方面的实践经验,对于读者了解故障管理具有重要参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《赵成的运维体系管理课》,新⼈⾸单¥59
《赵成的运维体系管理课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(5)
- 最新
- 精选
- 符亮又是值得反复阅读的一章。对事不对人,控场者很重要,我们公司故障后扯皮的例子不要太多。
作者回复: 挑战很大,我甚至建议,在没有好的规矩树立起来的时候,不要轻易定责,不然对团队的积极性,主动性伤害都会很大。
2020-07-234 - Raymond吕无处不复盘!孔子也讲复盘:吾日三省吾身。
作者回复: 复盘是一种非常重要的学习方式。
2020-03-121 - 向日葵能遇到目标是真正想解决问题的团队,是一种荣幸也是一种缘分2019-09-276
- 知鱼君这一讲收获很大呀,重新刷新了我对故障的认知2019-04-012
- 橙汁但凡能在此专栏刚出时购买并畅读,可能现在也还是现在这样!2023-01-03归属地:北京
收起评论