作者回复: Q1:告警系统是可观测性的一部分,上一节课在介绍可观测性的图片中有介绍。 Q2:这个问题是问课程中基于日志数量的报警实现吗?这个可以将日志的数据按等级的 Metric 上报到 Prometheus,然后基于 Prometheus 的数量来设置报警规则来报警。直接通过ELK查日志的话,数据量太大,链路长,时延可能会比较大
作者回复: 这个是 oncall 机制。 优化好报警的信噪比就可以了。
作者回复: 这个规则也可以,不过探活也有告警的,会更直接。
作者回复: 告警一般是网状的,会交叉覆盖,一般服务不可用还有服务的探活等告警
作者回复: 对于第三方阈值的定义,这个一般在sla里面有描述的。一般以这个为准就行。