运维监控系统实战笔记
秦晓辉
快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
9147 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 25 讲
运维监控系统实战笔记
15
15
1.0x
00:00/00:00
登录|注册

11|机器监控:操作系统有哪些指标需要重点关注?

你好,我是秦晓辉。
前面两讲我从方法论和技术实现角度给你介绍了监控数据的采集原理及方法,这些方法论是我们搞定后面各种监控需求的基础,这里你可以再结合总结图复习一下。有了这些理论基础之后,我们就可以动手实操了。
监控方向里我们最耳熟能详的,就是机器监控,也就是我们前面说的设备监控中的一种。机器是进程运行的基础环境,在制作中间件、应用监控仪表盘的时候,我们一般会把机器核心指标,比如 CPU、内存、磁盘、网络、IO 等,作为仪表盘的一部分,USE 方法论主要就是针对机器监控提出的,其重要性不言而喻,所以今天我们就从机器监控开始聊起。

机器监控手段

机器层面的监控分为两部分,带内监控和带外监控。带内监控就是通过带内网络来监控,主要是以在 OS 里部署 Agent 的方式,来获取 OS 的 CPU、内存、磁盘、IO、网络、进程等相关监控指标。随着云时代的到来,普通运维研发人员主要关注带内监控即可,IDC 运维人员才会关注带外监控。不过为了让你的知识网络更加完整,带外监控我也浅聊几句。
带外监控走的是带外网络,通常和业务网络不互通,通过 IPMI、SNMP 等协议获取硬件健康状况。
IPMI 可用于监控硬件的物理参数,如系统温度、风扇速度、电源电压等,可以有效地利用 IPMI 监控硬件温度、功耗、启动或关闭服务器和系统,以及进行日志记录。IPMI 的一个主要亮点是,它的功能独立于服务器的 CPU 和操作系统。因为固件是直接在服务器主板上运行的,所以不管安装的操作系统是什么,它都可以用于管理各种远程位置的服务器。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了操作系统监控的重要性,特别是在云时代。文章介绍了机器监控的两种方式:带内监控和带外监控,以及一款Agent工具Categraf的使用方法。带内监控通过在操作系统内部部署Agent来获取CPU、内存、磁盘、IO、网络、进程等相关监控指标,而带外监控则是通过IPMI、SNMP等协议获取硬件健康状况。Categraf可以采集各种指标,并将数据推送到监控服务端。文章还详细介绍了CPU、内存、磁盘、网络等插件的配置和监控指标,以及如何使用自定义监控脚本来扩展监控采集能力。通过本文,读者可以了解到操作系统监控的重要性以及如何使用Categraf进行监控数据的采集和推送。整体来说,本文内容丰富,涵盖了操作系统监控的重要方面,对于需要深入了解机器监控的读者来说是一篇很有价值的文章。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《运维监控系统实战笔记》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(14)

  • 最新
  • 精选
  • hshopeful
    需要使用自定义脚本的场景: 1、可以在脚本里面针对现有的监控指标进行运算得到新的监控指标(成功率) 2、可以在脚本里面执行 sql 命令从 mysql 获取一些有意义的业务指标,其他存储系统类似 3、对于一些第三方组件(不好改),有暴露文本格式的监控指标(但是不符合 prometheus 的格式标准),可以通过自定义脚本进行格式转换

    作者回复: 👍🏻

    2023-02-01归属地:湖北
    7
  • 那时刻
    我们之前误认为IO.UTIL指标来确认磁盘是否负荷重或IOPS瓶颈。然后通过查询资料,纠正了我们的认知。 IO.UTIL是磁盘饱和度(saturation)指标,表示该设备有I/O(即非空闲)的时间比率,不考虑I/O有多少,只考虑有没有。由于现代硬盘设备(如RAID SSD)都有并行处理多个I/O请求的能力,所以%util即使达到100%也不意味着设备饱和了。 对于磁盘饱和度,我们可通过 IOPS, CPU的 IOWAIT, Disk Latency (硬盘平均(读写)时间/(读写)总数) 来综合考量。 烦请老师看看有木有瑕疵的地方?

    作者回复: 另外,虽然io.util的意义和直觉认知不同,其实,也是一个重要的参考,至少我们知道io.util小于99%的情况都不太用操心~

    2023-02-09归属地:北京
    2
  • leeeo
    请问一下:如果从非prometheus升级到prometheus架构,老的监控的历史数据如何迁移到prometheus时序数据库中呢?

    作者回复: 太笼统了没法回答。一般较难迁移,两个系统双跑一段时间

    2023-02-01归属地:四川
    1
  • 怀朔
    业务场景。 如:视频转码队列 、视频转码成功 、支付成功率 等等

    作者回复: 👍🏻

    2023-02-01归属地:浙江
    1
  • 战魂陆
    请问一下,procstat 插件监控的进程启动时间,抓取的时间戳很小,换算出来 直接是1970年了,这个如何修复呢,更新了categraf的版本也不行,感觉涉及到源码。

    作者回复: 那不是时间戳,是进程启动的秒数

    2023-10-28归属地:四川
    2
  • k8s卡拉米
    请问老师: 1,prometheus监控最后展示到grafana,采集器使用categraf 好还是node_exporter好呢? 2,监控k8s相关的资源,也是用categraf吗?

    作者回复: 这个得看监控什么东西,如果是监控机器,node-exporter、categraf、telegraf,都可以;如果是监控K8s资源,基本都是调用各类组件的/metrics接口,使用prometheus(agent mode)直接拉,或者vmagent,更多一些

    2023-06-01归属地:北京
  • 胖爷
    请问catagraf这个组件是否为免费的呀

    作者回复: 是免费的,MIT开源协议

    2023-05-22归属地:北京
  • 王志平
    categraf 不支持阿里云服务器吗=部署吗

    作者回复: categraf可以部署在阿里云的虚拟机里

    2023-03-14归属地:上海
  • Geek_97a20e
    请问categraf对应的grafana仪表盘配置文件有提供吗

    作者回复: 还没有

    2023-02-13归属地:浙江
  • 123
    老师,对于在MacOS上启动的docker categraf 拿到的是docker容器内的数据而非宿主机的数据

    作者回复: 可能Mac上的容器实际是虚拟机的原因,虚拟机的隔离性更好,这一个不用纠结,Mac通常只是用于测试,生产还是Linux

    2023-02-10归属地:浙江
收起评论
显示
设置
留言
14
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部