30 | 故障管理：故障应急和故障复盘

赵成



该思维导图由 AI 生成，仅供参考

上周我们分享了故障管理中，应该如何对待故障，怎样做好故障定级和定责方面的管理工作。今天我就和你分享当故障真正发生后，我们在故障通报和故障复盘方面的实践经验。
故障应急当故障真实发生后，带来的影响不仅仅是技术层面的，更多的是业务层面的，比如用户和商家的批量投诉，交易量下跌，广告资损等等。而这些影响又会产生巨大的外部压力，并传递到技术团队，这时如果没有很好的故障应对机制，技术团队就很容易陷入慌乱，不知所措。
我们能否有效应对这种突发且高压的状况，我觉得有两个方面十分关键。
第一方面，业务恢复预案。
这也是我们在故障应急状态下一定要坚守的第一原则：优先恢复业务，而不是定位问题。这就需要我们事先有充足的预案准备以及故障模拟演练，这就跟我们前面介绍的各种稳定性保障措施相关，通过稳定性平台的建设，与我们能够预见到的，以及我们经历过的故障场景相结合，当发生故障时能够第一时间执行对应的恢复预案。
同时，预案的执行不能仅仅在故障发生时才执行，而是应该把故障模拟和恢复演练放在平时。我在团队中经常传递的一个理念就是：凡是没有演练过的预案，都是耍流氓。也就是如果我们在日常系统稳定的状态下都不敢执行预案，或者执行了没效果，那真到了故障发生后，在更为复杂的状况下，预案 100% 也是不敢做的，因为这种异常状态下，我们还要考虑执行了预案是否会导致次生故障。
关于故障模拟，可以分为不同层面来梳理，比如：
IDC 层面，如电力切换、UPS 切换、核心网络设备切换，单设备故障等，这些故障是可以通过人为破坏进行模拟的，模拟手段相对简单，但是破坏力和影响面会很大，所以做之前一定要准备充分。我们会定期 1~2 个月做一次类似的模拟演练，涉及机房配合的，也会提前跟运营商约定好时间；
系统层面，如 CPU、磁盘 IO、网络 IO、网络时延、丢包等异常场景，这些都有开源或 Linux 系统自带的工具支持，比如 Stress 工具模拟 CPU 升高，dd 模拟磁盘 IO，tc 模拟网络问题；
应用层面，最典型的就是 RT 升高，抛出异常，返回错误码等等，这里还是会用 Spring 的注解功能，在运行时模拟异常状况，然后有针对性地看各种限流降级和开关预案策略能否生效。
关于故障模拟，我再次向你推荐 Netflix 的 Chaos Engineering，介绍得非常全面。
第二方面，有效的组织协调。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

故障管理在IT运维中至关重要，本文分享了故障应急和故障复盘的实践经验。在故障应急方面，强调了业务恢复预案的重要性，以及组织协调和信息透明的必要性。故障复盘阶段则强调了从故障中学习，避免追究责任和实施惩罚，而是着重于技术支持的关键作用和故障定级定责的流程。此外，定期总结故障案例也被提及，以便发现共性问题并进行规划改进。整体而言，本文强调了故障管理的重要性，以及在故障发生时的有效组织协调和信息通报的必要性。文章内容丰富，涵盖了故障应急、复盘和定期总结等方面的实践经验，对于读者了解故障管理具有重要参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《赵成的运维体系管理课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

符亮
又是值得反复阅读的一章。对事不对人，控场者很重要，我们公司故障后扯皮的例子不要太多。
作者回复: 挑战很大，我甚至建议，在没有好的规矩树立起来的时候，不要轻易定责，不然对团队的积极性，主动性伤害都会很大。
2020-07-23

4
Raymond吕
无处不复盘！孔子也讲复盘：吾日三省吾身。
作者回复: 复盘是一种非常重要的学习方式。
2020-03-12

1
向日葵
能遇到目标是真正想解决问题的团队，是一种荣幸也是一种缘分
2019-09-27

6
知鱼君
这一讲收获很大呀，重新刷新了我对故障的认知
2019-04-01

2
橙汁
但凡能在此专栏刚出时购买并畅读，可能现在也还是现在这样！
2023-01-03归属地：北京



收起评论