37|2024年互联网大厂故障盘点:从危机中汲取教训
白园

你好,这里是极客头条。
新的一年马上到来了,在这新旧交替的时刻,我们十分有必要对即将过去的 2024 年做一些总结和盘点。
即将过去的 2024 年无疑也是互联网故障频发的一年,为了能够在这些故障中吸取一些经验,我们特别邀请了《SRE 实践:服务可靠性案例课》的作者白园,来为我们盘点 2024 年互联网大厂的十大故障,分析故障的原因以及故障带来的影响,希望能避免类似问题的发生,保障服务的稳定性。
故障回顾
2024 年 1 月 11 日腾讯游戏故障
故障描述:1 月 11 日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”登上热搜。
故障原因:腾讯游戏回应称:今夜 0 时许,因运营商线路故障导致网络波动,部分区域服务器的用户出现掉线和暂时无法登录的情况。
2024 年 4 月 8 日腾讯云:控制台故障
故障描述:2024 年 4 月 8 日 15 点 23 分,腾讯云团队通过告警系统监测到云 API 服务异常,并迅速收到大量客户反馈无法登录腾讯云控制台。故障持续了约 87 分钟,从 15:23 到 17:00。此次故障导致部分公有云服务无法使用,包括云函数、文字识别、微服务平台等。
故障影响:故障主要影响了控制层面,导致云 API 服务出现异常。这一问题进一步影响了依赖云 API 的多个公有云产品,最终导致大量用户受到影响。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 2024年12月11日,多家互联网大厂出现故障,包括腾讯游戏、腾讯云、Google Cloud、阿里云、微软Windows、网易云音乐、支付宝、抖音等,影响用户体验和服务稳定性。 2. 故障原因多样,包括运营商线路故障、配置数据错误、误删云账户、光缆挖断、软件更新缺陷等,反映出互联网基础设施和服务运营中的多种问题。 3. 故障影响广泛,涉及游戏、云服务、金融科技、音乐、支付等多个领域,对用户和企业产生了不同程度的影响。 4. 公司应对故障的方式各异,有的公司迅速做出回应和解释,有的提供补偿权益,有的则未公开详细声明故障原因。 5. 用户关注度高,故障发生后,用户通过社交媒体迅速反馈问题,对故障引发了广泛关注和讨论。 6. 大部分故障在短时间内得到修复,公司也采取了一定的补救措施,保障了服务的稳定性和用户体验。 7. 故障教训,各公司应从故障中吸取经验教训,加强基础设施建设和服务运营管理,提升故障应对能力,保障服务的稳定性和可靠性。 8. OpenAI在2024年12月11日遭遇了全球性的服务中断,故障原因是新部署的监控系统对Kubernetes控制面造成了过大压力,导致长时间的服务不可用。 9. 反思一:变更是稳定性的最大威胁,需要有效应对变更,执行严格的流程控制,注意培养人的意识。 10. 反思二:极端情况下最有效的应对手段是多活架构和逃生能力,以及备份和恢复机制的重要性。
该试读文章来自《极客头条》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论