Bloomberg监控系统的标准化和扩展
极客时间编辑部
讲述:丁婵大小:1.20M时长:02:38
Bloomberg 开发团队采纳 SRE 实践后,一个显著的成果是对监控系统的改进,该系统的后台由团队部署的 Metrictank 时序数据库提供支持。
据了解,Bloomberg 的基础设施横跨两个自运营数据中心近 200 个计算节点,服务于约 32.5 万名客户,以及一个近 5000 人的开发团队。
长期以来,开发人员负责对自己构建和部署的产品进行生产监控,监控系统中存在着多种数据采集器,它们会对同一度量做重复的测量,对系统的整体也缺乏一个完整视图。
斯蒂格·索伦森(Stig Sorensen)在 Bloomberg 负责 SRE(站点可靠性工程,Site Reliability Engineering)的实施,他的团队首先推出了一种支持标签的自研 StatsD 代理,该代理关注的是如何尽快从中心系统获取度量。一旦完成了度量采集,系统将会基于 Kafka 集群,完成大量的验证、聚合、规则和持久化工作,这一系统很快就面对着可扩展性的问题。
Bloomberg 软件开发人员肖恩·汉森(Sean Hanson)指出,系统运行两年后,每秒需要处理 250 万个数据点、1 亿个时间序列。其中一些高基数度量的值可以达到 50 万。他们的初始解决方案的确具有很好的可扩展性,但是在系统真正达到这样的处理能力时,事实上无法从中做任何查询,并且系统在处理高基数度量时表现依然很差。
团队构建的新系统同样面对着一系列新的需求,包括推导度量计算的函数、可配置的保留期、元数据的查询以及可扩展性。
而 Metrictank 是一种多租户时序数据库,它支持 Graphite 监控系统,适合团队的大部分需求。它的性能比 Facebook 前期采用的高基数数据系统高出数倍,这为跨组织的度量分析铺平了道路。
目前,Bloomberg 团队已经对其中一些资源敏感区域做了优化,并贡献到 Metritank 代码中。其它一些组织也已经使用 Cassandra 作为后端,实现对 Graphite 监控系统的扩展。
另外,Bloomberg 团队不仅更新了监控系统,而且为实现工作方式标准化而采纳了 SRE。无论是运维人员还是系统管理员,都采用了这种方式做编程和人员变动。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论