• 王植
    2023-02-24 来自上海
    老师,有没有比较全的监控信息库,通过这个信息库可以查漏补缺,感觉价值很大

    作者回复: https://promcat.io/ 这个可以做一些参考

    
    3
  • 隆哥
    2023-01-27 来自福建
    系统随着时间的推移,应用不断增加,依赖服务也越来越复杂,对于监控来说复杂度就越高了。我遇到的是使用第三方对象存储服务,自有域名ssl证书过期之后才发现,因为没有监控该域名的ssl证书过期时间。

    作者回复: 👍🏻

    共 4 条评论
    3
  • Mori
    2023-01-31 来自广东
    比如云厂商的mysql、redis、kafka等资源,是对接云厂商的监控指标好一点还是自己部署exporter采集好点呢,比如说腾讯云可以通过qcloud_exporter对接mysql/redis/lb的指标数据拉取到本地,然后通过prometheus采集,当实例比较多的情况下,通过qcloud_exporter拉取指标可能耗时比较久

    作者回复: 这是个好问题。如果想在一个地方做关联查询,只能把所有数据拉到一个中心,如果对关联查询没有需求,同时使用阿里云的监控、腾讯云的监控、华为云的监控、本地IDC的自建监控,分别去管理,也问题不大,不过告警事件最好聚拢到一起,要不然,故障协同处理是个问题

    共 3 条评论
    2
  • penng
    2023-03-28 来自重庆
    老师好,像进程监控,jvm监控,应该归类到以上四类监控的哪类里去呢?

    作者回复: 这其实是两个维度的。 比如jvm监控,监控了很多指标,有些指标是饱和度指标,有些是latency指标(比如后文介绍kafka监控,就是通过jmx暴露了很多指标,其中就有latency相关的)。

    
    1
  • Geek_89cb03
    2023-02-26 来自上海
    请问老师,业务监控与应用监控有什么区别? 业务监控采用什么工具或方法实现?

    编辑回复: 在19、20讲哦

    共 3 条评论
    
  • maybe
    2023-02-11 来自广西
    redis连接数、ulimit、mysql cpu都没监控,服务挂了好几次

    作者回复: 🩸的教训~

    
    
  • mj4ever
    2023-01-30 来自北京
    阿里云的Redis服务发生主从切换,导致我们应用程序无法进行队列数据的消费(redisson客户端没有感知到外部集群服务发生变化,采用的是永久阻塞模式);如果我们对Redis中的队列有监控,当队列深度持续增高或长时间停留在一个大于0的情况,就可以及时发现问题,当然,程序本身也有问题,应该设置一个超时时长,而不是永久阻塞。

    作者回复: 👍🏻

    
    
  • hshopeful
    2023-01-29 来自湖北
    1、只有进程存活性监控,但是进程处于僵死状态无法发现,需要添加对进程中探活接口的监测 2、如果监控 agent 中有日志监控功能,在日志量很大,待匹配的正则表达式很复杂,agent 本身的资源消耗会很大,需要做好限制和监控

    作者回复: 👍🏻

    共 2 条评论
    
  • peter
    2023-01-27 来自北京
    请教老师两个问题: Q1:采用云主机,会有自动监控吗? 网站采用云主机,比如阿里云主机,会有自动监控吗? 尤其是设备和网络方面,阿里云会提供监控吗? Q2:网站会提供一个大屏来监控手机吗? 大厂会对终端采用一个大屏进行监控吗?或者,我建一个网站,是否需要对终端进行监控?(包括安卓和iOS)

    作者回复: 1,云厂商自带监控,不过有人觉得不好用,会自己整 2,大厂其实很少用监控大屏,不同业务线可能会有业务指标的监控大屏,普通指标一般不太值得放大屏上。终端监控从服务端角度主要看在线连接数,如果在线连接数掉了,说明大量设备离线,IoT场景很实用。安卓和iOS的App的话,也有监控需求,比如卡顿率、首屏加载时间等,端上监控是另一个话题了,不在本专栏探讨范围

    共 2 条评论
    
  • javaadu
    2023-06-27 来自广东
    监控指标需要分级管控,重要性从高到低
    
    