运维监控系统实战笔记
从业务场景出发,搭建监控系统
秦晓辉  快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
专栏
已完结·共 25 讲
|
9173 人已学
|
收藏
hshopeful
我自己在监控领域也做了很多年,这个专栏还是比较有价值的,将我脑海中的知识变得更加体系化,当然也输入了一些新的知识
2023-03-01
无名无姓
老师讲的是真好,受教了
2023-03-01
霍霍
期待,学习下
作者回复:🤝
2023-01-14
aaaaa
介绍的还是比较全面的,各个工具都能简要了解
作者回复:后面就开始围绕Prometheus详细展开了, 坐稳扶好 :)
2023-01-13
良才
我想问下,文中提到的由于时序数据库的原因,大多数采集器是收集的数值型数据么。那对于这些产品我需要采集字符型数据时又是如何处理呢
作者回复:拿Prometheus来举例,一些字符串类型的数据,如果是metadata类型的,比如xx的version的信息,一般是放在label里的。 如果不是metadata类型,比如是一行日志,Prometheus就完全搞不定了,需要使用日志监控方案。
2023-01-13
三年二班邱小东
老师好,我们公司主要就是监控网络设备和服务器,但却用Prometheus,他能胜任吗?感觉Grafana界面扩展性好差,对外行很不友好,我也不能决定技术选型,Prometheus+Grafana监控硬件可以做的zabbix一样方便吗?
作者回复:从技术角度来看,是可以的。只是从页面交互而言,Zabbix更加面向设备,Prometheus不会对设备做特殊对待,只是针对服务器和网络设备而言,Zabbix可能更符合直观使用习惯。 另外,Zabbix内置了很多模板,尤其是网络设备的模板,也能省事不少。 Prometheus+Grafana的话,采集、告警、看图都没问题,不过采集层面对网络设备而言估计要付出更多成本。
2023-01-13
novoer
接口成功率99.9%
作者回复:👍
2023-01-15
心想事成
老师你好,我公司做的是局域网内网的平台,邮件/短信/微信/钉钉这些都用不了,那么这种情况下告警通知怎么弄,感觉只能靠人工在监控平台界面上定期去看告警信息
作者回复:如果局域网内有一台机器可以连互联网,可以在这台机器做个代理;否则可能就真的只能人工盯屏了,为了减少人工盯屏的成本,有些监控系统会在产生新的告警事件的时候,发出声音提醒
2023-01-14
戒贪嗔痴
老师,你好。最近在用zabbix-java-gateway,来获取tomcat的指标数据,web端配置了jmx的ip和端口,绿灯可以点亮。也配置了企微告警,但是有一个问题,就是总是报jvm is not reachable 多少秒,过一会就自动恢复了,还有故障和恢复同一时间的这种情况,怀疑是网络问题,但是我telnet开放的端口都是通的。报警的时候其实应用是正常的,不知道哪里出了问题,希望老师可以指点一二,在此谢过!
作者回复:看看日志里有没有更详细的线索,也看看网络是否有丢包之类的,系统负载是不是太高(zabbix-java-gateway所在的机器和tomcat所在的机器)之类的
2023-01-13
hshopeful
有个问题想请教下老师:telegraf 中 tail 插件需要配置基于 grok 类型的正则表达式,categraf 中集成 google 开源的 mtail 插件的配置是基于 perl 的正则表达式,我自己实践下来感觉 mtail 里面的配置起来比较方便,grok 类型的配置很麻烦,老师能讲下这两种类型的区别吗?有点怀疑我自己对于 telegraf 中 tail 插件的使用姿势不对
作者回复:其实grok底层也是正则,我个人也是更推荐mtail,我感觉mtail可编程性更好
2023-01-13
讲师

秦晓辉

快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发

秦晓辉,快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发,拥有 10 余年运维研发经验,先后任职于百度、小米、金山云、滴滴,目前在快猫星云合伙创业,为客户提供监控和稳定性保障类产品,对监控和稳定性保障的方法论及实践路径有着深刻...查看更多
编辑推荐
包含这门课的学习路径

运维工程师

32门课程 149.1w人学习
看过的人还看了
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 224938 人已学习

¥68¥199
深入剖析 Kubernetes
张磊
Kubernetes 社区资深成员与项目维护者

57讲 | 116763 人已学习

¥68¥199
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 181001 人已学习

¥98¥399
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283805 人已学习

¥68¥199
Redis 核心技术与实战
蒋德钧
中科院计算所副研究员

53讲 | 81748 人已学习

¥68¥199
从 0 开始学架构
李运华
网名“华仔”,前阿里资深技术专家(P9)

66讲 | 152624 人已学习

¥68¥199