很多文章中都提到过白盒监控、黑盒监控以及监控的四个黄金指标。一般来说，白盒与黑盒分别从内部和外部监控系统运行状况，例如机器存活、CPU 内存使用率等都属于白盒监控，而外部端口探活、HTTP 探测以及端到端功能监控则属于黑盒监控范畴。
一般来说，可以把监控指标分为两类：基础监控和业务监控。基础监控包括 CPU、内存等机器、网络的操作系统级别信息。而业务监控指标由业务系统内部服务产生，一般能够真实反应业务运行状态。
据介绍，监控数据的采集方法一般分为以下几类：
日志。日志可以包含服务运行的方方面面，是重要的监控数据来源；
JMX。多数 Java 开发的服务均可由 JMX 接口输出监控指标。不少监控系统也有集成 JMX 采集插件；
REST。提供 REST API 来进行监控数据的采集；
OpenMetrics。得益于 Prometheus 的流行，OpenMetrics 可能很快会成为未来监控的业界标准；
命令行。一些服务提供本地命令来输出监控指标等。
无论业务系统如何复杂，监控指标如何眼花缭乱，但万变不离其宗，监控的目的无非是了解服务运行状况、发现服务故障并帮助定位故障原因。为了达成该目的，谷歌 SRE 总结的四个监控黄金指标非常有意义。
首先，错误是指当前系统发生的错误请求和错误率，是添加监控时首要关注的指标。在添加错误相关监控时，我们应该关注以下方面：基础监控、业务监控、核心功能处理错误、Master 故障、可用节点数等。
其次，延迟的主要关注点有 IO 等待、网络延迟等。业务相关指标主要关注核心功能响应时长，与错误指标类似，白盒延迟指标通常仅能代表系统内部延迟，建议为主要功能或接口添加黑盒监控来采集端到端延迟指标。
第三，流量指标可以指系统层面的网络和磁盘 IO，服务层面的 QpS、PV 和 UV 等数据。流量和突增或突减都可能预示着系统可能出现问题。
第四，饱和度用于衡量当前的服务利用率，可以代表系统承受的压力。饱和度与流量息息相关，流量上升一般也会导致饱和度上升。通常情况下，每种业务系统都应该有各自的饱和度指标。
在实际工作中，不同监控系统的设计多种多样，没有统一标准，不同业务系统通常也有特定监控采集方法和黄金指标定义，具体如何采集监控指标和添加告警都需要针对不同系统灵活应对。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

全部留言(2)

最新
精选

天草二十六
白盒监控和黑盒监控的分类，归类得棒。。


小猪
如果使用prometheus做监控运维，是否就可以不使用zabbix了？



收起评论



显示
设置



留言



99+



沉浸
阅读





手机端



快捷键



回顶部