极客视点
极客时间编辑部
极客时间编辑部
113230 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/02:01
登录|注册

Monzo服务中断的事后分析

讲述:丁婵大小:939.90K时长:02:01
Monzo 是英国的一家仅提供移动端服务的数字银行。近日,该银行的活期账户支付和预付信用卡系统出现了服务中断。Monzo 工程部门负责人奥利弗·贝蒂(Oliver Beattie)在 Monzo 社区论坛分享了服务中断的事后分析。
在最初架构设计的时候,Monzo 就将在全球范围内提供服务作为核心前提之一。久而久之,这使得他们开发了数以百计的微服务。
这些微服务被打包进 Docker 容器,再使用 Kubernetes 部署到 AWS 上。服务的编排是由 etcd 完成的,kubernetes 就是用它来识别服务的部署位置以及每个服务的状态。服务间的路由和负载均衡是使用 linkerd 实现的。
这次服务中断既影响了预付信用卡,又影响了活期账户持有者。经过分析,Monzo 发现有多个原因造成了此次服务中断事故。
首先,Kubernetes 的一个 Bug 会导致请求在集群重新配置后超时。在服务实际中断导致这些超时出现的之前一周,他们进行了集群重新配置,使 linkerd 接收不到 Kubernetes 的更新。
再者,当服务中断发生时,他们的一个直接反应是重启所有的 linkerd 实例,这暴露出了一个问题,Monzo 使用的 Kubernetes 和 linkerd 版本不兼容,这使情况变得更加糟糕,从服务中断变成了整个平台的故障。
从这样一次服务中断里可以汲取一些有价值的教训。除了修复 Bug、检查不同库的版本兼容性及其他问题外,Monzo 认识到了改进内部或外部通信中断的处理措施的必要性。此外,另一个教训是认识到了报警、对应用程序的每一层进行健康检查从而及早发现人为错误及其他错误的重要性。
总而言之,重要的是,以后要采取一切措施防止服务中断,既能解决问题,又能就正在发生的事清晰地沟通,这样,将来就可以构建起更好的保障措施。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
1
沉浸
阅读
分享
手机端
快捷键
回顶部