
hshopeful
我自己在监控领域也做了很多年,这个专栏还是比较有价值的,将我脑海中的知识变得更加体系化,当然也输入了一些新的知识
2023-03-01
7

无名无姓
老师讲的是真好,受教了
2023-03-01
2

霍霍
期待,学习下
作者回复:🤝
2023-01-14

aaaaa
介绍的还是比较全面的,各个工具都能简要了解
作者回复:后面就开始围绕Prometheus详细展开了, 坐稳扶好 :)
2023-01-13
2

良才
我想问下,文中提到的由于时序数据库的原因,大多数采集器是收集的数值型数据么。那对于这些产品我需要采集字符型数据时又是如何处理呢
作者回复:拿Prometheus来举例,一些字符串类型的数据,如果是metadata类型的,比如xx的version的信息,一般是放在label里的。
如果不是metadata类型,比如是一行日志,Prometheus就完全搞不定了,需要使用日志监控方案。
2023-01-13
1

三年二班邱小东
老师好,我们公司主要就是监控网络设备和服务器,但却用Prometheus,他能胜任吗?感觉Grafana界面扩展性好差,对外行很不友好,我也不能决定技术选型,Prometheus+Grafana监控硬件可以做的zabbix一样方便吗?
作者回复:从技术角度来看,是可以的。只是从页面交互而言,Zabbix更加面向设备,Prometheus不会对设备做特殊对待,只是针对服务器和网络设备而言,Zabbix可能更符合直观使用习惯。
另外,Zabbix内置了很多模板,尤其是网络设备的模板,也能省事不少。
Prometheus+Grafana的话,采集、告警、看图都没问题,不过采集层面对网络设备而言估计要付出更多成本。
2023-01-13
novoer
接口成功率99.9%
作者回复:👍
2023-01-15

心想事成
老师你好,我公司做的是局域网内网的平台,邮件/短信/微信/钉钉这些都用不了,那么这种情况下告警通知怎么弄,感觉只能靠人工在监控平台界面上定期去看告警信息
作者回复:如果局域网内有一台机器可以连互联网,可以在这台机器做个代理;否则可能就真的只能人工盯屏了,为了减少人工盯屏的成本,有些监控系统会在产生新的告警事件的时候,发出声音提醒
2023-01-14

戒贪嗔痴
老师,你好。最近在用zabbix-java-gateway,来获取tomcat的指标数据,web端配置了jmx的ip和端口,绿灯可以点亮。也配置了企微告警,但是有一个问题,就是总是报jvm is not reachable 多少秒,过一会就自动恢复了,还有故障和恢复同一时间的这种情况,怀疑是网络问题,但是我telnet开放的端口都是通的。报警的时候其实应用是正常的,不知道哪里出了问题,希望老师可以指点一二,在此谢过!
作者回复:看看日志里有没有更详细的线索,也看看网络是否有丢包之类的,系统负载是不是太高(zabbix-java-gateway所在的机器和tomcat所在的机器)之类的
2023-01-13

hshopeful
有个问题想请教下老师:telegraf 中 tail 插件需要配置基于 grok 类型的正则表达式,categraf 中集成 google 开源的 mtail 插件的配置是基于 perl 的正则表达式,我自己实践下来感觉 mtail 里面的配置起来比较方便,grok 类型的配置很麻烦,老师能讲下这两种类型的区别吗?有点怀疑我自己对于 telegraf 中 tail 插件的使用姿势不对
作者回复:其实grok底层也是正则,我个人也是更推荐mtail,我感觉mtail可编程性更好
2023-01-13

编辑推荐

包含这门课的学习路径

运维工程师
32门课程 149.1w人学习
看过的人还看了





