SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
1712 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 21 讲/共 29 讲
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

网易云音乐故障猜想:如何避免迁移带来的问题?

你好,我是白园。
这两天是不是被网易云音乐的故障刷屏了?从 19 号下午开始,我的群消息就没有消停过,都在讨论网易云这次的故障,也有不少同学想听我分析分析。虽然完整的故障报告还没有出来,但我们可以大胆推演一下。我也希望通过这次网易云音乐的故障,可以给你带来一些新的思考。

事件回顾

8 月 19 日下午 2 点半左右,大量网友反馈「网易云音乐」App 无法正常使用,随后“网易云音乐崩了”词条迅速登顶微博热搜,引发了广泛关注与讨论。对于这一大面积的故障,网络上迅速出现各种猜测事故原因的传言,比如删库跑路、服务器迁移、机房起火等等。
19 日下午 3 点,「网易云音乐」在官方微博做出回应,称因基础设施故障导致各端无法正常使用。同日下午 5 点左右,服务已基本恢复正常。5 点半,「网易云音乐」进一步澄清,否认了“删库跑路”的传言,并公布了针对这次事故的补偿权益。19 日晚,「网易云音乐」在微博回复了媒体报道,称“今天下午在业务扩容中出现了技术事故”。

原因猜想

猜想一:机房搬迁
19 日晚,「网易云音乐」在微博回复了媒体报道,称“今天下午在业务扩容中出现了技术事故”。根据《凤凰网科技》独家报道,这次宕机事件或与今年二季度的机房搬迁有关。一位来自网易内部的技术人员透露,此次事故可能与网易在贵州机房的迁移有关。网易二季度刚刚完成贵州机房的迁移,新机房的投入使用评估过程中就存在较高的风险。尽管前期内部评估认为迁移顺利,但实际上结果却令人担忧,搬迁完成后不久便发生了此次事故。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 网易云音乐在8月19日出现大面积故障,官方回应称基础设施故障导致各端无法正常使用。 2. 猜测故障原因可能与机房搬迁或扩容变更导致存储系统故障有关,可能与Curve存储系统有关。 3. 迁移过程中需严格实施故障管理策略,确保服务的连续性和可靠性,包括制定严格的审批流程和机制、制定清晰可执行的回滚方案、进行方案验证和演练等。 4. 控制影响的关键在于故障域的控制和细分,迅速启动对外应急响应机制,包括用户安抚、专业团队介入、沟通策略和后续跟进。 5. 在故障恢复阶段,需要业务层做容灾和逃生,同时在平台层面做好日常故障的演练,如故障快速重建、一键重启等。 6. 团队稳定性需要持续投入资源和精力,中层领导者需要争取利益、与上层沟通、确保团队目标与整体战略一致。 7. 一线员工应该努力提升自己的不可替代性、努力与细节、坚持长期持续的投入。 8. 技术层面的优化和思考需要进一步探讨。 9. 迁移带来的故障需要严格实施故障管理策略,确保服务的连续性和可靠性。 10. 控制影响的关键在于故障域的控制和细分,迅速启动对外应急响应机制,包括用户安抚、专业团队介入、沟通策略和后续跟进。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)