极客时间-轻松学习，高效学习-极客邦

peter
2022-02-28
请教老师两个问题： Q1：告警系统和可观测系统是两个独立的系统吗？在可观测系统上添加告警功能，可以吗？ Q2：告警系统是从ELK中获取日志信息吗？如果是，是将Logstash的数据直接导流到告警系统吗？或者从ES获取数据？如果不是，那告警系统是自己独立获取日志信息吗？
作者回复: Q1：告警系统是可观测性的一部分，上一节课在介绍可观测性的图片中有介绍。 Q2：这个问题是问课程中基于日志数量的报警实现吗？这个可以将日志的数据按等级的 Metric 上报到 Prometheus，然后基于 Prometheus 的数量来设置报警规则来报警。直接通过ELK查日志的话，数据量太大，链路长，时延可能会比较大
共 3 条评论
2
不吃辣👾
2022-04-08
思考题：我们的通知方式不是电话，收到告警后，针对核心服务，采用轮班制，每天一位责任人负责识别是否为有效告警，告警有效，催促别人的修复或者调整不合理的预警规则。针对非核心服务，就采用钉钉消息推送，靠个人自觉。
作者回复: 这个是 oncall 机制。优化好报警的信噪比就可以了。
不吃辣👾
2022-03-30
老师，如果应用服务不在打印日志，有可能长时间gc，这种是否也应该告警一次？因为elk并不知道是因为服务宕机了还是触发了gc。
作者回复: 这个规则也可以，不过探活也有告警的，会更直接。
不吃辣👾
2022-03-30
基于日志的告警，如果日志不再打印是不是可以认为服务不可用了，应告警。一分钟内两次这种告警就P0级别告警。
作者回复: 告警一般是网状的，会交叉覆盖，一般服务不可用还有服务的探活等告警
极客
2022-03-12
请教一个问题：我们的业务是toB的，不同接入方申请的qps不同，我们基于当前的qps 同比前一分钟，对比昨天的qps来触发告警。但是不同的接入方实际调用qps不同，比如我设置qps增量100%触发告警 A公司目前qps 1000,也就是到了2000要告警 B公司目前qps 10000, 不能到了20000才告警，期望在12000左右就要触发告警了（希望有个科学一点的公式）不知道老师有什么经验吗
作者回复: 对于第三方阈值的定义，这个一般在sla里面有描述的。一般以这个为准就行。
xmr
2023-06-14 来自广东
转交率是指什么？没看懂
波波安
2023-04-23 来自广东
有些什么方法或者经验可以避免漏报呢
includestdio.h
2022-09-30 来自陕西
有个问题想请教下老师，我们目前是用告警监控增量，我觉得不太合理。具体是这样：比如一个机器的cpu常年cpu是30，然后设置一个阈值是40，如果超过40需要去确认下是否业务正常增量，如果是正常增量的话调高阈值，如果异常的话解决问题，但是这样搞的话我觉得告警信噪比太低了，无效告警一大堆，影响业务的告警可能会被忽略，所以我的想法是cpu阈值全部调整到会影响业务的阈值，比如90 95，但是增量的监控我觉得也是有必要的，但是用告警的方法不太合理，哪怕是把告警等级降低频率降低我也觉得不是很合理，毕竟这本质上不算“告警”，但是告警好像又是及时发现增量排除隐患的最快方法，以上是我目前告警收敛工作中遇到的障碍
罗东就
2022-08-12 来自广东
告警精准推动到负责人，这个老师有什么思路吗
共 1 条评论