赵成的运维体系管理课
赵成
《进化: 运维技术变革与实践探索》作者
37830 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 49 讲
开篇词 (1讲)
效率和稳定性最佳实践 (20讲)
赵成的运维体系管理课
15
15
1.0x
00:00/00:00
登录|注册

30 | 故障管理:故障应急和故障复盘

总结
定期总结故障案例
故障复盘
故障应急
故障管理

该思维导图由 AI 生成,仅供参考

上周我们分享了故障管理中,应该如何对待故障,怎样做好故障定级和定责方面的管理工作。今天我就和你分享当故障真正发生后,我们在故障通报和故障复盘方面的实践经验。

故障应急

当故障真实发生后,带来的影响不仅仅是技术层面的,更多的是业务层面的,比如用户和商家的批量投诉,交易量下跌,广告资损等等。而这些影响又会产生巨大的外部压力,并传递到技术团队,这时如果没有很好的故障应对机制,技术团队就很容易陷入慌乱,不知所措。
我们能否有效应对这种突发且高压的状况,我觉得有两个方面十分关键。
第一方面,业务恢复预案。
这也是我们在故障应急状态下一定要坚守的第一原则:优先恢复业务,而不是定位问题。这就需要我们事先有充足的预案准备以及故障模拟演练,这就跟我们前面介绍的各种稳定性保障措施相关,通过稳定性平台的建设,与我们能够预见到的,以及我们经历过的故障场景相结合,当发生故障时能够第一时间执行对应的恢复预案。
同时,预案的执行不能仅仅在故障发生时才执行,而是应该把故障模拟和恢复演练放在平时。我在团队中经常传递的一个理念就是:凡是没有演练过的预案,都是耍流氓。也就是如果我们在日常系统稳定的状态下都不敢执行预案,或者执行了没效果,那真到了故障发生后,在更为复杂的状况下,预案 100% 也是不敢做的,因为这种异常状态下,我们还要考虑执行了预案是否会导致次生故障。
关于故障模拟,可以分为不同层面来梳理,比如:
IDC 层面,如电力切换、UPS 切换、核心网络设备切换,单设备故障等,这些故障是可以通过人为破坏进行模拟的,模拟手段相对简单,但是破坏力和影响面会很大,所以做之前一定要准备充分。我们会定期 1~2 个月做一次类似的模拟演练,涉及机房配合的,也会提前跟运营商约定好时间;
系统层面,如 CPU、磁盘 IO、网络 IO、网络时延、丢包等异常场景,这些都有开源或 Linux 系统自带的工具支持,比如 Stress 工具模拟 CPU 升高,dd 模拟磁盘 IO,tc 模拟网络问题;
应用层面,最典型的就是 RT 升高,抛出异常,返回错误码等等,这里还是会用 Spring 的注解功能,在运行时模拟异常状况,然后有针对性地看各种限流降级和开关预案策略能否生效。
关于故障模拟,我再次向你推荐 Netflix 的 Chaos Engineering,介绍得非常全面。
第二方面,有效的组织协调。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

故障管理在IT运维中至关重要,本文分享了故障应急和故障复盘的实践经验。在故障应急方面,强调了业务恢复预案的重要性,以及组织协调和信息透明的必要性。故障复盘阶段则强调了从故障中学习,避免追究责任和实施惩罚,而是着重于技术支持的关键作用和故障定级定责的流程。此外,定期总结故障案例也被提及,以便发现共性问题并进行规划改进。整体而言,本文强调了故障管理的重要性,以及在故障发生时的有效组织协调和信息通报的必要性。文章内容丰富,涵盖了故障应急、复盘和定期总结等方面的实践经验,对于读者了解故障管理具有重要参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《赵成的运维体系管理课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 符亮
    又是值得反复阅读的一章。对事不对人,控场者很重要,我们公司故障后扯皮的例子不要太多。

    作者回复: 挑战很大,我甚至建议,在没有好的规矩树立起来的时候,不要轻易定责,不然对团队的积极性,主动性伤害都会很大。

    2020-07-23
    4
  • Raymond吕
    无处不复盘!孔子也讲复盘:吾日三省吾身。

    作者回复: 复盘是一种非常重要的学习方式。

    2020-03-12
    1
  • 向日葵
    能遇到目标是真正想解决问题的团队,是一种荣幸也是一种缘分
    2019-09-27
    6
  • 知鱼君
    这一讲收获很大呀,重新刷新了我对故障的认知
    2019-04-01
    2
  • 橙汁
    但凡能在此专栏刚出时购买并畅读,可能现在也还是现在这样!
    2023-01-03归属地:北京
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部