运维监控系统实战笔记
秦晓辉
快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
9147 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 25 讲
运维监控系统实战笔记
15
15
1.0x
00:00/00:00
登录|注册

09|监控概论(上):有哪些方法可以指导监控数据采集?

你好,我是秦晓辉。
前面几讲我们介绍了监控的一些原理和搭建方法,这一讲开始,我们进入监控实战部分,看看具体怎么监控不同类型的目标对象。我会先用两讲的时间讲一下监控方法论和典型的监控数据采集原理。
这一讲我们主要介绍监控方法论,因为要监控的目标五花八门,怎样才能让监控数据更加完备,怎样才能知道哪些指标更加重要,解决这些问题都需要监控方法论的指导。目前业界比较流行的方法论有 Google 的四个黄金指标、RED 方法、USE 方法,下面我们一一介绍一下。

Google 的四个黄金指标

Google 的四个黄金指标着眼点在服务监控,这四个指标分别是延迟、流量、错误和饱和度。
延迟:服务请求所花费的时间,比如用户获取商品列表页面调用的某个接口,花费 30 毫秒。这个指标需要区分成功请求和失败请求,因为失败的请求可能会立刻返回,延迟很小,会扰乱正常的请求延迟数据。
流量:HTTP 服务的话就是每秒 HTTP 请求数,RPC 服务的话就是每秒 RPCCall 的数量,如果是数据库,可能用数据库系统的事务量来作为流量指标。
错误:请求失败的速率,即每秒有多少请求失败,比如 HTTP 请求返回了 500 错误码,说明这个请求是失败的,或者虽然返回的状态码是 200,但是返回的内容不符合预期,也认为是请求失败。
饱和度:描述应用程序有多“满”,或者描述受限的资源,比如 CPU 密集型应用,CPU 使用率就可以作为饱和度指标。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了监控概论(上)的内容,主要围绕监控方法论和典型的监控数据采集原理展开。文章首先介绍了Google的四个黄金指标,包括延迟、流量、错误和饱和度,以及它们在服务监控中的重要性。接着介绍了RED方法,即请求速率、错误和延迟,作为Google四个黄金指标的简化版。然后介绍了USE方法,即使用率、饱和度和错误,用于分析资源问题。文章还对监控对象进行了分类,包括业务监控、应用监控、组件监控和资源监控。其中,业务监控关注企业营收和客户主流程,应用监控针对应用程序的监控,组件监控涉及各类数据库、中间件和云平台,而资源监控主要针对设备和网络。整体而言,本文通过介绍不同的监控方法和监控对象分类,为读者提供了监控概念和实践的全面概览。文章还介绍了网络监控的常见方法,包括网络连通性监控和流量监控。最后,作者提出了监控覆盖完备性问题,并鼓励读者分享监控数据不完备导致线上环境问题的情况。整体而言,本文为读者提供了监控方法和分类的全面概览,以及网络监控的常见方法,对于了解监控概念和实践具有重要参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《运维监控系统实战笔记》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(10)

  • 最新
  • 精选
  • 王植
    老师,有没有比较全的监控信息库,通过这个信息库可以查漏补缺,感觉价值很大

    作者回复: https://promcat.io/ 这个可以做一些参考

    2023-02-24归属地:上海
    4
  • penng
    老师好,像进程监控,jvm监控,应该归类到以上四类监控的哪类里去呢?

    作者回复: 这其实是两个维度的。 比如jvm监控,监控了很多指标,有些指标是饱和度指标,有些是latency指标(比如后文介绍kafka监控,就是通过jmx暴露了很多指标,其中就有latency相关的)。

    2023-03-28归属地:重庆
    3
  • 隆哥
    系统随着时间的推移,应用不断增加,依赖服务也越来越复杂,对于监控来说复杂度就越高了。我遇到的是使用第三方对象存储服务,自有域名ssl证书过期之后才发现,因为没有监控该域名的ssl证书过期时间。

    作者回复: 👍🏻

    2023-01-27归属地:福建
    4
    3
  • Mori
    比如云厂商的mysql、redis、kafka等资源,是对接云厂商的监控指标好一点还是自己部署exporter采集好点呢,比如说腾讯云可以通过qcloud_exporter对接mysql/redis/lb的指标数据拉取到本地,然后通过prometheus采集,当实例比较多的情况下,通过qcloud_exporter拉取指标可能耗时比较久

    作者回复: 这是个好问题。如果想在一个地方做关联查询,只能把所有数据拉到一个中心,如果对关联查询没有需求,同时使用阿里云的监控、腾讯云的监控、华为云的监控、本地IDC的自建监控,分别去管理,也问题不大,不过告警事件最好聚拢到一起,要不然,故障协同处理是个问题

    2023-01-31归属地:广东
    3
    2
  • Geek_89cb03
    请问老师,业务监控与应用监控有什么区别? 业务监控采用什么工具或方法实现?

    编辑回复: 在19、20讲哦

    2023-02-26归属地:上海
    3
    1
  • maybe
    redis连接数、ulimit、mysql cpu都没监控,服务挂了好几次

    作者回复: 🩸的教训~

    2023-02-11归属地:广西
  • mj4ever
    阿里云的Redis服务发生主从切换,导致我们应用程序无法进行队列数据的消费(redisson客户端没有感知到外部集群服务发生变化,采用的是永久阻塞模式);如果我们对Redis中的队列有监控,当队列深度持续增高或长时间停留在一个大于0的情况,就可以及时发现问题,当然,程序本身也有问题,应该设置一个超时时长,而不是永久阻塞。

    作者回复: 👍🏻

    2023-01-30归属地:北京
  • hshopeful
    1、只有进程存活性监控,但是进程处于僵死状态无法发现,需要添加对进程中探活接口的监测 2、如果监控 agent 中有日志监控功能,在日志量很大,待匹配的正则表达式很复杂,agent 本身的资源消耗会很大,需要做好限制和监控

    作者回复: 👍🏻

    2023-01-29归属地:湖北
    2
  • peter
    请教老师两个问题: Q1:采用云主机,会有自动监控吗? 网站采用云主机,比如阿里云主机,会有自动监控吗? 尤其是设备和网络方面,阿里云会提供监控吗? Q2:网站会提供一个大屏来监控手机吗? 大厂会对终端采用一个大屏进行监控吗?或者,我建一个网站,是否需要对终端进行监控?(包括安卓和iOS)

    作者回复: 1,云厂商自带监控,不过有人觉得不好用,会自己整 2,大厂其实很少用监控大屏,不同业务线可能会有业务指标的监控大屏,普通指标一般不太值得放大屏上。终端监控从服务端角度主要看在线连接数,如果在线连接数掉了,说明大量设备离线,IoT场景很实用。安卓和iOS的App的话,也有监控需求,比如卡顿率、首屏加载时间等,端上监控是另一个话题了,不在本专栏探讨范围

    2023-01-27归属地:北京
    2
  • javaadu
    监控指标需要分级管控,重要性从高到低
    2023-06-27归属地:广东
收起评论
显示
设置
留言
10
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部