• peter
    2022-02-28
    请教老师两个问题: Q1:告警系统和可观测系统是两个独立的系统吗? 在可观测系统上添加告警功能,可以吗? Q2:告警系统是从ELK中获取日志信息吗? 如果是,是将Logstash的数据直接导流到告警系统吗?或者从ES获取数据?如果不是,那告警系统是自己独立获取日志信息吗?

    作者回复: Q1:告警系统是可观测性的一部分,上一节课在介绍可观测性的图片中有介绍。 Q2:这个问题是问课程中基于日志数量的报警实现吗?这个可以将日志的数据按等级的 Metric 上报到 Prometheus,然后基于 Prometheus 的数量来设置报警规则来报警。直接通过ELK查日志的话,数据量太大,链路长,时延可能会比较大

    共 3 条评论
    2
  • 不吃辣👾
    2022-04-08
    思考题:我们的通知方式不是电话,收到告警后,针对核心服务,采用轮班制,每天一位责任人负责识别是否为有效告警,告警有效,催促别人的修复或者调整不合理的预警规则。针对非核心服务,就采用钉钉消息推送,靠个人自觉。

    作者回复: 这个是 oncall 机制。 优化好报警的信噪比就可以了。

    
    
  • 不吃辣👾
    2022-03-30
    老师,如果应用服务不在打印日志,有可能长时间gc,这种是否也应该告警一次? 因为elk并不知道是因为服务宕机了还是触发了gc。

    作者回复: 这个规则也可以,不过探活也有告警的,会更直接。

    
    
  • 不吃辣👾
    2022-03-30
    基于日志的告警,如果日志不再打印是不是可以认为服务不可用了,应告警。一分钟内两次这种告警就P0级别告警。

    作者回复: 告警一般是网状的,会交叉覆盖,一般服务不可用还有服务的探活等告警

    
    
  • 极客
    2022-03-12
    请教一个问题: 我们的业务是toB的,不同接入方申请的qps不同,我们基于当前的qps 同比前一分钟,对比昨天的qps来触发告警。 但是不同的接入方实际调用qps不同,比如我设置qps增量100%触发告警 A公司目前qps 1000,也就是到了2000要告警 B公司目前qps 10000, 不能到了20000才告警,期望在12000左右就要触发告警了(希望有个科学一点的公式) 不知道老师有什么经验吗

    作者回复: 对于第三方阈值的定义,这个一般在sla里面有描述的。一般以这个为准就行。

    
    
  • xmr
    2023-06-14 来自广东
    转交率是指什么?没看懂
    
    
  • 波波安
    2023-04-23 来自广东
    有些什么方法或者经验可以避免漏报呢
    
    
  • includestdio.h
    2022-09-30 来自陕西
    有个问题想请教下老师,我们目前是用告警监控增量,我觉得不太合理。具体是这样:比如一个机器的cpu常年cpu是30,然后设置一个阈值是40,如果超过40需要去确认下是否业务正常增量,如果是正常增量的话调高阈值,如果异常的话解决问题,但是这样搞的话 我觉得告警信噪比太低了,无效告警一大堆,影响业务的告警可能会被忽略,所以我的想法是cpu阈值全部调整到会影响业务的阈值,比如90 95,但是增量的监控我觉得也是有必要的,但是用告警的方法不太合理,哪怕是把告警等级降低 频率降低我也觉得不是很合理,毕竟这本质上不算“告警”,但是告警好像又是及时发现增量排除隐患的最快方法,以上是我目前告警收敛工作中遇到的障碍
    
    
  • 罗东就
    2022-08-12 来自广东
    告警精准推动到负责人,这个老师有什么思路吗
    共 1 条评论
    