极客头条
极客时间
编辑部
4060 人已学习
免费领取
课程目录
已更新 38 讲/共 39 讲
极客头条
15
15
1.0x
00:00/00:00
登录|注册

37|2024年互联网大厂故障盘点:从危机中汲取教训

你好,这里是极客头条。
新的一年马上到来了,在这新旧交替的时刻,我们十分有必要对即将过去的 2024 年做一些总结和盘点。
即将过去的 2024 年无疑也是互联网故障频发的一年,为了能够在这些故障中吸取一些经验,我们特别邀请了《SRE 实践:服务可靠性案例课》的作者白园,来为我们盘点 2024 年互联网大厂的十大故障,分析故障的原因以及故障带来的影响,希望能避免类似问题的发生,保障服务的稳定性。

故障回顾

2024 年 1 月 11 日腾讯游戏故障

故障描述:1 月 11 日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”登上热搜。
故障原因:腾讯游戏回应称:今夜 0 时许,因运营商线路故障导致网络波动,部分区域服务器的用户出现掉线和暂时无法登录的情况。

2024 年 4 月 8 日腾讯云:控制台故障

故障描述:2024 年 4 月 8 日 15 点 23 分,腾讯云团队通过告警系统监测到云 API 服务异常,并迅速收到大量客户反馈无法登录腾讯云控制台。故障持续了约 87 分钟,从 15:23 到 17:00‌。此次故障导致部分公有云服务无法使用,包括云函数、文字识别、微服务平台等‌。
故障影响:故障主要影响了控制层面,导致云 API 服务出现异常。这一问题进一步影响了依赖云 API 的多个公有云产品,最终导致大量用户受到影响。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 2024年12月11日,多家互联网大厂出现故障,包括腾讯游戏、腾讯云、Google Cloud、阿里云、微软Windows、网易云音乐、支付宝、抖音等,影响用户体验和服务稳定性。 2. 故障原因多样,包括运营商线路故障、配置数据错误、误删云账户、光缆挖断、软件更新缺陷等,反映出互联网基础设施和服务运营中的多种问题。 3. 故障影响广泛,涉及游戏、云服务、金融科技、音乐、支付等多个领域,对用户和企业产生了不同程度的影响。 4. 公司应对故障的方式各异,有的公司迅速做出回应和解释,有的提供补偿权益,有的则未公开详细声明故障原因。 5. 用户关注度高,故障发生后,用户通过社交媒体迅速反馈问题,对故障引发了广泛关注和讨论。 6. 大部分故障在短时间内得到修复,公司也采取了一定的补救措施,保障了服务的稳定性和用户体验。 7. 故障教训,各公司应从故障中吸取经验教训,加强基础设施建设和服务运营管理,提升故障应对能力,保障服务的稳定性和可靠性。 8. OpenAI在2024年12月11日遭遇了全球性的服务中断,故障原因是新部署的监控系统对Kubernetes控制面造成了过大压力,导致长时间的服务不可用。 9. 反思一:变更是稳定性的最大威胁,需要有效应对变更,执行严格的流程控制,注意培养人的意识。 10. 反思二:极端情况下最有效的应对手段是多活架构和逃生能力,以及备份和恢复机制的重要性。

该试读文章来自《极客头条》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
故障回顾
2024 年 1 月 11 日腾讯游戏故障
2024 年 4 月 8 日腾讯云:控制台故障
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部