荷兰银行的SRE实践
极客时间编辑部
讲述:丁婵大小:1.22M时长:02:40
近日,来自荷兰国际集团(ING)的简娜·布鲁梅尔 (Janna Brummel) 和罗宾·凡·吉尔 (Robin van Zijll) 在伦敦 Velocity 大会上,分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队提供有关可靠性的工具、咨询和培训。
荷兰国际集团的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统的可用性都在 99.99% 左右。造成这种局面的因素包括:
产品团队缺乏监控;
集中式的告警系统只在发生重大事件,比如系统崩溃时才会发出告警;
诊断问题需要很长时间,一个主要事故平均需要 69 分钟;
缺少事后的事故评审和总结;
缺少组件层面的可用性洞见,服务层面的反馈对产品团队来说不够直接。
据分享,集中式的 SRE 团队只提供咨询,他们本身不会参与轮班待命,同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌 SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。
目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus、Grafana 和 Mattermost(ChatOps)构建了一些工具。同时,他们还帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。
布鲁梅尔和凡·吉尔分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前,先要多花一些时间搞清楚状况,否则可能会事与愿违。
他们表示,这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,要让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。
最后,布鲁梅尔和凡·吉尔总结了此次 SRE 之旅的要点:
在进行 SRE 招聘时更注重 SRE 思维;
为避免出现优先级冲突,SRE 团队需要一个产品负责人;
做好花大量时间向产品团队解释和推广 SRE 的准备;
工具需要提供商用级别的可用性,而且要切实解决用户的痛点;
考虑工具的可扩展性和所有权问题。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论