极客视点
极客时间编辑部
极客时间编辑部
113240 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/03:15
登录|注册

一份运维监控的终极秘籍

讲述:杜力大小:4.46M时长:03:15
很多文章中都提到过白盒监控、黑盒监控以及监控的四个黄金指标。一般来说,白盒与黑盒分别从内部和外部监控系统运行状况,例如机器存活、CPU 内存使用率等都属于白盒监控,而外部端口探活、HTTP 探测以及端到端功能监控则属于黑盒监控范畴。
一般来说,可以把监控指标分为两类:基础监控和业务监控。基础监控包括 CPU、内存等机器、网络的操作系统级别信息。而业务监控指标由业务系统内部服务产生,一般能够真实反应业务运行状态。
据介绍,监控数据的采集方法一般分为以下几类:
日志。日志可以包含服务运行的方方面面,是重要的监控数据来源;
JMX。多数 Java 开发的服务均可由 JMX 接口输出监控指标。不少监控系统也有集成 JMX 采集插件;
REST。提供 REST API 来进行监控数据的采集;
OpenMetrics。得益于 Prometheus 的流行,OpenMetrics 可能很快会成为未来监控的业界标准;
命令行。一些服务提供本地命令来输出监控指标等。
无论业务系统如何复杂,监控指标如何眼花缭乱,但万变不离其宗,监控的目的无非是了解服务运行状况、发现服务故障并帮助定位故障原因。为了达成该目的,谷歌 SRE 总结的四个监控黄金指标非常有意义。
首先,错误是指当前系统发生的错误请求和错误率,是添加监控时首要关注的指标。在添加错误相关监控时,我们应该关注以下方面:基础监控、业务监控、核心功能处理错误、Master 故障、可用节点数等。
其次,延迟的主要关注点有 IO 等待、网络延迟等。业务相关指标主要关注核心功能响应时长,与错误指标类似,白盒延迟指标通常仅能代表系统内部延迟,建议为主要功能或接口添加黑盒监控来采集端到端延迟指标。
第三,流量指标可以指系统层面的网络和磁盘 IO,服务层面的 QpS、PV 和 UV 等数据。流量和突增或突减都可能预示着系统可能出现问题。
第四,饱和度用于衡量当前的服务利用率,可以代表系统承受的压力。饱和度与流量息息相关,流量上升一般也会导致饱和度上升。通常情况下,每种业务系统都应该有各自的饱和度指标。
在实际工作中,不同监控系统的设计多种多样,没有统一标准,不同业务系统通常也有特定监控采集方法和黄金指标定义,具体如何采集监控指标和添加告警都需要针对不同系统灵活应对。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • 天草二十六
    白盒监控和黑盒监控的分类,归类得棒。。
  • 小猪
    如果使用prometheus做监控运维,是否就可以不使用zabbix了?
收起评论
显示
设置
留言
2
收藏
99+
沉浸
阅读
分享
手机端
快捷键
回顶部