一份运维监控的终极秘籍
极客时间编辑部
讲述:杜力大小:4.46M时长:03:15
很多文章中都提到过白盒监控、黑盒监控以及监控的四个黄金指标。一般来说,白盒与黑盒分别从内部和外部监控系统运行状况,例如机器存活、CPU 内存使用率等都属于白盒监控,而外部端口探活、HTTP 探测以及端到端功能监控则属于黑盒监控范畴。
一般来说,可以把监控指标分为两类:基础监控和业务监控。基础监控包括 CPU、内存等机器、网络的操作系统级别信息。而业务监控指标由业务系统内部服务产生,一般能够真实反应业务运行状态。
据介绍,监控数据的采集方法一般分为以下几类:
日志。日志可以包含服务运行的方方面面,是重要的监控数据来源;
JMX。多数 Java 开发的服务均可由 JMX 接口输出监控指标。不少监控系统也有集成 JMX 采集插件;
REST。提供 REST API 来进行监控数据的采集;
OpenMetrics。得益于 Prometheus 的流行,OpenMetrics 可能很快会成为未来监控的业界标准;
命令行。一些服务提供本地命令来输出监控指标等。
无论业务系统如何复杂,监控指标如何眼花缭乱,但万变不离其宗,监控的目的无非是了解服务运行状况、发现服务故障并帮助定位故障原因。为了达成该目的,谷歌 SRE 总结的四个监控黄金指标非常有意义。
首先,错误是指当前系统发生的错误请求和错误率,是添加监控时首要关注的指标。在添加错误相关监控时,我们应该关注以下方面:基础监控、业务监控、核心功能处理错误、Master 故障、可用节点数等。
其次,延迟的主要关注点有 IO 等待、网络延迟等。业务相关指标主要关注核心功能响应时长,与错误指标类似,白盒延迟指标通常仅能代表系统内部延迟,建议为主要功能或接口添加黑盒监控来采集端到端延迟指标。
第三,流量指标可以指系统层面的网络和磁盘 IO,服务层面的 QpS、PV 和 UV 等数据。流量和突增或突减都可能预示着系统可能出现问题。
第四,饱和度用于衡量当前的服务利用率,可以代表系统承受的压力。饱和度与流量息息相关,流量上升一般也会导致饱和度上升。通常情况下,每种业务系统都应该有各自的饱和度指标。
在实际工作中,不同监控系统的设计多种多样,没有统一标准,不同业务系统通常也有特定监控采集方法和黄金指标定义,具体如何采集监控指标和添加告警都需要针对不同系统灵活应对。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 天草二十六白盒监控和黑盒监控的分类,归类得棒。。
- 小猪如果使用prometheus做监控运维,是否就可以不使用zabbix了?
收起评论