11|机器监控:操作系统有哪些指标需要重点关注?

2023-02-01 秦晓辉
《运维监控系统实战笔记》
课程介绍


讲述:秦晓辉

时长:大小13.57M


你好,我是秦晓辉。
前面两讲我从方法论和技术实现角度给你介绍了监控数据的采集原理及方法,这些方法论是我们搞定后面各种监控需求的基础,这里你可以再结合总结图复习一下。有了这些理论基础之后,我们就可以动手实操了。
监控方向里我们最耳熟能详的,就是机器监控,也就是我们前面说的设备监控中的一种。机器是进程运行的基础环境,在制作中间件、应用监控仪表盘的时候,我们一般会把机器核心指标,比如 CPU、内存、磁盘、网络、IO 等,作为仪表盘的一部分,USE 方法论主要就是针对机器监控提出的,其重要性不言而喻,所以今天我们就从机器监控开始聊起。

机器监控手段

机器层面的监控分为两部分,带内监控和带外监控。带内监控就是通过带内网络来监控,主要是以在 OS 里部署 Agent 的方式,来获取 OS 的 CPU...

展开全文
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。

精选留言

  • hshopeful
    2023-02-01 来自湖北
    需要使用自定义脚本的场景: 1、可以在脚本里面针对现有的监控指标进行运算得到新的监控指标(成功率) 2、可以在脚本里面执行 sql 命令从 mysql 获取一些有意义的业务指标,其他存储系统类似 3、对于一些第三方组件(不好改),有暴露文本格式的监控指标(但是不符合 prometheus 的格式标准),可以通过自定义脚本进行格式转换

    作者回复: 👍🏻

    
    5
  • 那时刻
    2023-02-09 来自北京
    我们之前误认为IO.UTIL指标来确认磁盘是否负荷重或IOPS瓶颈。然后通过查询资料,纠正了我们的认知。 IO.UTIL是磁盘饱和度(saturation)指标,表示该设备有I/O(即非空闲)的时间比率,不考虑I/O有多少,只考虑有没有。由于现代硬盘设备(如RAID SSD)都有并行处理多个I/O请求的能力,所以%util即使达到100%也不意味着设备饱和了。 对于磁盘饱和度,我们可通过 IOPS, CPU的 IOWAIT, Disk Latency (硬盘平均(读写)时间/(读写)总数) 来综合考量。 烦请老师看看有木有瑕疵的地方?

    作者回复: 另外,虽然io.util的意义和直觉认知不同,其实,也是一个重要的参考,至少我们知道io.util小于99%的情况都不太用操心~

    
    1
  • leeeo
    2023-02-01 来自四川
    请问一下:如果从非prometheus升级到prometheus架构,老的监控的历史数据如何迁移到prometheus时序数据库中呢?

    作者回复: 太笼统了没法回答。一般较难迁移,两个系统双跑一段时间

    
    1
  • 怀朔
    2023-02-01 来自浙江
    业务场景。 如:视频转码队列 、视频转码成功 、支付成功率 等等

    作者回复: 👍🏻

    
    1
  • k8s卡拉米
    2023-06-01 来自北京
    请问老师: 1,prometheus监控最后展示到grafana,采集器使用categraf 好还是node_exporter好呢? 2,监控k8s相关的资源,也是用categraf吗?

    作者回复: 这个得看监控什么东西,如果是监控机器,node-exporter、categraf、telegraf,都可以;如果是监控K8s资源,基本都是调用各类组件的/metrics接口,使用prometheus(agent mode)直接拉,或者vmagent,更多一些

    
    
  • 胖爷
    2023-05-22 来自北京
    请问catagraf这个组件是否为免费的呀

    作者回复: 是免费的,MIT开源协议

    
    
  • 王志平
    2023-03-14 来自上海
    categraf 不支持阿里云服务器吗=部署吗

    作者回复: categraf可以部署在阿里云的虚拟机里

    
    
  • Geek_97a20e
    2023-02-13 来自浙江
    请问categraf对应的grafana仪表盘配置文件有提供吗

    作者回复: 还没有

    
    
  • 123
    2023-02-10 来自浙江
    老师,对于在MacOS上启动的docker categraf 拿到的是docker容器内的数据而非宿主机的数据

    作者回复: 可能Mac上的容器实际是虚拟机的原因,虚拟机的隔离性更好,这一个不用纠结,Mac通常只是用于测试,生产还是Linux

    
    
  • Kevin
    2023-02-07 来自北京
    categraf支持类似于node_exporter的textfile设置metadata的功能吗?

    作者回复: 设置metadata?我没有印象node_exporter可以做这个事情。我印象里node_exporter可以读取textfile,从中解析监控指标。Categraf不支持这种方式,Categraf支持两种扩展机制,一个是提供了HTTP接口,接收监控指标上报,一个是提供了exec插件,支持自定义监控脚本,监控脚本输出influx、prometheus、falcon等格式的数据就可以啦

    
    