09|监控概论(上):有哪些方法可以指导监控数据采集?
Google 的四个黄金指标
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了监控概论(上)的内容,主要围绕监控方法论和典型的监控数据采集原理展开。文章首先介绍了Google的四个黄金指标,包括延迟、流量、错误和饱和度,以及它们在服务监控中的重要性。接着介绍了RED方法,即请求速率、错误和延迟,作为Google四个黄金指标的简化版。然后介绍了USE方法,即使用率、饱和度和错误,用于分析资源问题。文章还对监控对象进行了分类,包括业务监控、应用监控、组件监控和资源监控。其中,业务监控关注企业营收和客户主流程,应用监控针对应用程序的监控,组件监控涉及各类数据库、中间件和云平台,而资源监控主要针对设备和网络。整体而言,本文通过介绍不同的监控方法和监控对象分类,为读者提供了监控概念和实践的全面概览。文章还介绍了网络监控的常见方法,包括网络连通性监控和流量监控。最后,作者提出了监控覆盖完备性问题,并鼓励读者分享监控数据不完备导致线上环境问题的情况。整体而言,本文为读者提供了监控方法和分类的全面概览,以及网络监控的常见方法,对于了解监控概念和实践具有重要参考价值。
《运维监控系统实战笔记》,新⼈⾸单¥59
全部留言(10)
- 最新
- 精选
- 王植老师,有没有比较全的监控信息库,通过这个信息库可以查漏补缺,感觉价值很大
作者回复: https://promcat.io/ 这个可以做一些参考
2023-02-24归属地:上海4 - penng老师好,像进程监控,jvm监控,应该归类到以上四类监控的哪类里去呢?
作者回复: 这其实是两个维度的。 比如jvm监控,监控了很多指标,有些指标是饱和度指标,有些是latency指标(比如后文介绍kafka监控,就是通过jmx暴露了很多指标,其中就有latency相关的)。
2023-03-28归属地:重庆3 - 隆哥系统随着时间的推移,应用不断增加,依赖服务也越来越复杂,对于监控来说复杂度就越高了。我遇到的是使用第三方对象存储服务,自有域名ssl证书过期之后才发现,因为没有监控该域名的ssl证书过期时间。
作者回复: 👍🏻
2023-01-27归属地:福建43 - Mori比如云厂商的mysql、redis、kafka等资源,是对接云厂商的监控指标好一点还是自己部署exporter采集好点呢,比如说腾讯云可以通过qcloud_exporter对接mysql/redis/lb的指标数据拉取到本地,然后通过prometheus采集,当实例比较多的情况下,通过qcloud_exporter拉取指标可能耗时比较久
作者回复: 这是个好问题。如果想在一个地方做关联查询,只能把所有数据拉到一个中心,如果对关联查询没有需求,同时使用阿里云的监控、腾讯云的监控、华为云的监控、本地IDC的自建监控,分别去管理,也问题不大,不过告警事件最好聚拢到一起,要不然,故障协同处理是个问题
2023-01-31归属地:广东32 - Geek_89cb03请问老师,业务监控与应用监控有什么区别? 业务监控采用什么工具或方法实现?
编辑回复: 在19、20讲哦
2023-02-26归属地:上海31 - mayberedis连接数、ulimit、mysql cpu都没监控,服务挂了好几次
作者回复: 🩸的教训~
2023-02-11归属地:广西 - mj4ever阿里云的Redis服务发生主从切换,导致我们应用程序无法进行队列数据的消费(redisson客户端没有感知到外部集群服务发生变化,采用的是永久阻塞模式);如果我们对Redis中的队列有监控,当队列深度持续增高或长时间停留在一个大于0的情况,就可以及时发现问题,当然,程序本身也有问题,应该设置一个超时时长,而不是永久阻塞。
作者回复: 👍🏻
2023-01-30归属地:北京 - hshopeful1、只有进程存活性监控,但是进程处于僵死状态无法发现,需要添加对进程中探活接口的监测 2、如果监控 agent 中有日志监控功能,在日志量很大,待匹配的正则表达式很复杂,agent 本身的资源消耗会很大,需要做好限制和监控
作者回复: 👍🏻
2023-01-29归属地:湖北2 - peter请教老师两个问题: Q1:采用云主机,会有自动监控吗? 网站采用云主机,比如阿里云主机,会有自动监控吗? 尤其是设备和网络方面,阿里云会提供监控吗? Q2:网站会提供一个大屏来监控手机吗? 大厂会对终端采用一个大屏进行监控吗?或者,我建一个网站,是否需要对终端进行监控?(包括安卓和iOS)
作者回复: 1,云厂商自带监控,不过有人觉得不好用,会自己整 2,大厂其实很少用监控大屏,不同业务线可能会有业务指标的监控大屏,普通指标一般不太值得放大屏上。终端监控从服务端角度主要看在线连接数,如果在线连接数掉了,说明大量设备离线,IoT场景很实用。安卓和iOS的App的话,也有监控需求,比如卡顿率、首屏加载时间等,端上监控是另一个话题了,不在本专栏探讨范围
2023-01-27归属地:北京2 - javaadu监控指标需要分级管控,重要性从高到低2023-06-27归属地:广东