赵成的运维体系管理课
赵成
蘑菇街平台技术总监
立即订阅
5558 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 带给你不一样的运维思考
免费
应用运维体系建设 (11讲)
01 | 为什么Netflix没有运维岗位?
02 | 微服务架构时代,运维体系建设为什么要以“应用”为核心?
03 | 标准化体系建设(上):如何建立应用标准化体系和模型?
04 | 标准化体系建设(下):如何建立基础架构标准化及服务化体系?
05 | 如何从生命周期的视角看待应用运维体系建设?
06 | 聊聊CMDB的前世今生
07 | 有了CMDB,为什么还需要应用配置管理?
08 | 如何在CMDB中落地应用的概念?
09 | 如何打造运维组织架构?
10 | 谷歌SRE运维模式解读
11 | 从谷歌CRE谈起,运维如何培养服务意识?
效率和稳定性最佳实践 (20讲)
12 | 持续交付知易行难,想做成这事你要理解这几个关键点
13 | 持续交付的第一关键点:配置管理
14 | 如何做好持续交付中的多环境配置管理?
15 | 开发和测试争抢环境?是时候进行多环境建设了
16 | 线上环境建设,要扛得住真刀真枪的考验
17 | 人多力量大vs.两个披萨原则,聊聊持续交付中的流水线模式
18 | 持续交付流水线软件构建难吗?有哪些关键问题?
19 | 持续交付中流水线构建完成后就大功告成了吗?别忘了质量保障
20 | 做持续交付概念重要还是场景重要?看“笨办法”如何找到最佳方案
21 | 极端业务场景下,我们应该如何做好稳定性保障?
22 | 稳定性实践:容量规划之业务场景分析
23 | 稳定性实践:容量规划之压测系统建设
24 | 稳定性实践:限流降级
25 | 稳定性实践:开关和预案
26 | 稳定性实践:全链路跟踪系统,技术运营能力的体现
27 | 故障管理:谈谈我对故障的理解
28 | 故障管理:故障定级和定责
29 | 故障管理:鼓励做事,而不是处罚错误
30 | 故障管理:故障应急和故障复盘
31 | 唇亡齿寒,运维与安全
云计算时代的运维实践 (6讲)
32 | 为什么蘑菇街会选择上云?是被动选择还是主动出击?
33 | 为什么混合云是未来云计算的主流形态?
34 | Spring Cloud:面向应用层的云架构解决方案
35 | 以绝对优势立足:从CDN和云存储来聊聊云生态的崛起
36 | 量体裁衣方得最优解:聊聊页面静态化架构和二级CDN建设
37 | 云计算时代,我们所说的弹性伸缩,弹的到底是什么?
个人成长 (5讲)
38 | 我是如何走上运维岗位的?
39 | 云计算和AI时代,运维应该如何做好转型?
40 | 运维需要懂产品和运营吗?
41 | 冷静下来想想,员工离职这事真能“防得住”吗?
42 | 树立个人品牌意识:从背景调查谈谈职业口碑的重要性
加餐 (4讲)
划重点:赵成的运维体系管理课精华(一)
划重点:赵成的运维体系管理课精华(二)
划重点:赵成的运维体系管理课精华(三)
新书 |《进化:运维技术变革与实践探索》
结束语 (1讲)
结束语 | 学习的过程,多些耐心和脚踏实地
赵成的运维体系管理课
登录|注册

30 | 故障管理:故障应急和故障复盘

赵成 2018-03-21
上周我们分享了故障管理中,应该如何对待故障,怎样做好故障定级和定责方面的管理工作。今天我就和你分享当故障真正发生后,我们在故障通报和故障复盘方面的实践经验。

故障应急

当故障真实发生后,带来的影响不仅仅是技术层面的,更多的是业务层面的,比如用户和商家的批量投诉,交易量下跌,广告资损等等。而这些影响又会产生巨大的外部压力,并传递到技术团队,这时如果没有很好的故障应对机制,技术团队就很容易陷入慌乱,不知所措。
我们能否有效应对这种突发且高压的状况,我觉得有两个方面十分关键。
第一方面,业务恢复预案。
这也是我们在故障应急状态下一定要坚守的第一原则:优先恢复业务,而不是定位问题。这就需要我们事先有充足的预案准备以及故障模拟演练,这就跟我们前面介绍的各种稳定性保障措施相关,通过稳定性平台的建设,与我们能够预见到的,以及我们经历过的故障场景相结合,当发生故障时能够第一时间执行对应的恢复预案。
同时,预案的执行不能仅仅在故障发生时才执行,而是应该把故障模拟和恢复演练放在平时。我在团队中经常传递的一个理念就是:凡是没有演练过的预案,都是耍流氓。也就是如果我们在日常系统稳定的状态下都不敢执行预案,或者执行了没效果,那真到了故障发生后,在更为复杂的状况下,预案 100% 也是不敢做的,因为这种异常状态下,我们还要考虑执行了预案是否会导致次生故障。
关于故障模拟,可以分为不同层面来梳理,比如:
IDC 层面,如电力切换、UPS 切换、核心网络设备切换,单设备故障等,这些故障是可以通过人为破坏进行模拟的,模拟手段相对简单,但是破坏力和影响面会很大,所以做之前一定要准备充分。我们会定期 1~2 个月做一次类似的模拟演练,涉及机房配合的,也会提前跟运营商约定好时间;
系统层面,如 CPU、磁盘 IO、网络 IO、网络时延、丢包等异常场景,这些都有开源或 Linux 系统自带的工具支持,比如 Stress 工具模拟 CPU 升高,dd 模拟磁盘 IO,tc 模拟网络问题;
应用层面,最典型的就是 RT 升高,抛出异常,返回错误码等等,这里还是会用 Spring 的注解功能,在运行时模拟异常状况,然后有针对性地看各种限流降级和开关预案策略能否生效。
关于故障模拟,我再次向你推荐 Netflix 的 Chaos Engineering,介绍得非常全面。
第二方面,有效的组织协调。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《赵成的运维体系管理课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(2)

  • 孙志宇
    这一讲收获很大呀,重新刷新了我对故障的认知
    2019-04-01
    1
  • 向日葵
    能遇到目标是真正想解决问题的团队,是一种荣幸也是一种缘分
    2019-09-27
收起评论
2
返回
顶部