SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
2558 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 32 讲
元旦加餐 (1讲)
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

元旦加餐|2024年互联网大厂故障盘点

你好,我是白园。
2024 年马上就要接近尾声了,这节课我们来回顾一下 2024 年互联网大厂发生的一些重大故障,以及带给我们的启示。这节课我选取了 10 个经典的案例进行分析回顾。通过分析这些案例,我希望新的一年我们可以吸取教训,避免类似问题的发生。

故障回顾

2024 年 1 月 11 日腾讯游戏故障

故障描述:1 月 11 日晚,多位网友表示包括《英雄联盟》《王者荣耀》《和平精英》在内的多款腾讯旗下游戏出现服务器崩溃、掉线的问题。“腾讯游戏全部断开”登上热搜。
故障原因:腾讯游戏回应称:今夜 0 时许,因运营商线路故障导致网络波动,部分区域服务器的用户出现掉线和暂时无法登录的情况。

2024 年 4 月 8 日腾讯云:控制台故障

故障描述:2024 年 4 月 8 日 15 点 23 分,腾讯云团队通过告警系统监测到云 API 服务异常,并迅速收到大量客户反馈无法登录腾讯云控制台。故障持续了约 87 分钟,从 15:23 到 17:00‌。此次故障导致部分公有云服务无法使用,包括云函数、文字识别、微服务平台等‌。
故障影响:故障主要影响了控制层面,导致云 API 服务出现异常。这一问题进一步影响了依赖云 API 的多个公有云产品,最终导致大量用户受到影响。
故障原因:确定故障根因是配置数据错误,并设计数据修复方案‌。版本兼容性与灰度机制‌:新版本 API 接口协议变化导致旧版本数据处理异常,灰度机制不足导致异常数据快速扩散‌。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 2024年12月11日,OpenAI遭遇了全球性的服务中断,持续超过四个小时,影响了多项服务。 2. 故障原因是新部署的监控系统对Kubernetes控制面造成了过大压力,导致长时间的服务不可用。 3. 变更是稳定性的最大威胁,需要有效应对变更并执行严格的流程控制。 4. 多活架构和逃生能力是极端情况下最有效的应对手段,需要进行演练和验证。 5. 不能忽视备份和恢复机制的重要性,必须时刻关注备份的有效性。 6. 稳定性始终是核心议题,需要从监控、容量、变更、应急预案、数据备份、人的意识六个层面提升。 7. 需要培养自身的可靠性意识,提升对线上的敬畏心,不仅仅停留在使用工具和技术解决问题的阶段。 8. 必须始终保持对技术的敬畏之心,不断加强系统安全性,提高故障预防和应对能力。 9. 每一位企业家、每一位互联网从业者都应实现稳健的发展,迎接挑战,确保技术环境更加安全可靠。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
故障回顾
2024 年 1 月 11 日腾讯游戏故障
2024 年 4 月 8 日腾讯云:控制台故障
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)