15｜预案场景（二）：一次机房故障为何让多位高管被辞退？

白园

你好，我是白园。这节课我来分享一下互联网中比较常见的故障—单机房故障。我们先来看三起故障案例。
年 3 月某电商平台发生 P0 级故障宕机 12 小时，业绩损失超亿元，影响客户 800 多万，故障的主要原因是南沙 IDC 冷冻系统故障，机房设备温度快速升高宕机，线上商城停止服务。由于崩溃时间太长，很多消费者无法正常下单。此次事故暴露出该公司容灾应急预案和风险防范措施不到位，该公司对基础平台部负责人做了免职处理。
年 7 月 4 日傍晚，一家外卖服务平台发生了大规模的服务中断，用户无法正常下单。经调查，故障的原因是该平台当地数据中心的电力供应出现了问题。尽管数据中心设有柴油发电机作为备用电源，但在此次事件中，发电机未能成功启动。在随后的恢复过程中，还发现监控系统也受到了影响，未能及时检测到问题。此外，在尝试切换到备用系统时，发现之前的切换操作并未按预期进行，这进一步加剧了故障的严重性。
年 3 月，一家知名社交软件公司遭遇了严重的服务中断，起因是其数据中心的冷却系统出现了故障。此次冷却系统的失效直接导致了服务瘫痪，对广大用户的日常使用造成了显著影响。尽管公司有进行常规演练，但这些演练与实际发生的故障情景存在较大差异，导致现有的应对措施效果不佳。事后多名主管被通报批评。这次故障暴露了公司在容灾设计和应急预案方面存在的不足，有关业务部门的风险防范意识不到位。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 三起机房故障案例分析：电商平台、外卖服务平台和知名社交软件公司遭遇故障，导致严重的业务中断和损失，暴露了容灾应急预案和风险防范措施不到位的问题。 2. 应对单机房故障的关键措施：能止损、快止损、损失最小，其中包括多活建设、消除单点、消除混联、依赖解耦等策略。 3. 构建平台化的预案执行机制：包括多层次的流量切换手段，了解业务的多活情况和多活流量调度策略等信息。 4. 异地多活和同地多活的区别：异地多活架构更复杂，而同地多活已经足够，需要重点探讨同地多活的关键动作。 5. 快速判断故障范围和类型：在故障发生时，需要迅速判断故障是局部的还是整个机房的问题，进一步分析故障类型，以及检查IP列表的网段分布情况。 6. 快速决策流量切换操作：需要进行细致的影响评估，确保切换仅限于受到影响的服务，避免引起不必要的扩散，以及确保系统的容量能够满足N+1的需求。 7. 了解现状：在故障发生时，需要迅速掌握哪些业务已经实现了多活，业务采用的多活类型，以及多活流量调度策略等信息。 8. 多层切流策略：包括接入层、服务层和存储层的流量调度，以及非核心服务的降级策略和紧急扩容的考虑。 9. 演练和盲测：通过无损盲测、提前通知有损盲测和无通知有损盲测来验证业务线的故障响应和止损效率。 10. 最优化决策：在执行切量过程中需要根据实际情况做第二次判断，包括容量、延迟和失败率等，以及在后续AIOps部分中介绍的内容。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《SRE 实践：服务可靠性案例课》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论