作者回复: Grafana是个单点,如果告警规则很多,可能会有瓶颈;其次是Grafana的告警规则配置我是感觉真难用,不知道其他人怎么看。alertmanager不负责告警规则管理,只负责告警事件的后续,对于告警事件的后续处理,包括分组、屏蔽、抑制,还是比较齐全的,不过alertmanager更多的是给一个团队使用,如果很多团队都使用一个alertmanager来管理告警,就容易混乱,需要制定良好的规范,需要制定良好的规范,需要制定良好的规范,重要的事情说三遍
作者回复: 不能,grafana是自己实现了告警引擎,用grafana自己的告警机制就可以了
作者回复: 配置管理这块,建议是ansible、puppet之类的工具,telegraf、datadog-agent这些目前也都是修改配置文件的方式,后面也有考虑在Nightingale里开放agent的配置管理能力,不过还没有时间搞
作者回复: 👍🏻
作者回复: 这个问法欠妥,K8s本身是可以处理节点故障自动迁移pod的,从这个角度来讲,是有告警自愈的能力的。webhook是prometheus、nightingale等这种监控系统的职能,产生告警之后通过webhook调用第三方的系统,prometheus、nightingale、zabbix等都可以做
作者回复: 1,server使用redis心跳,这样所有的server就都知道活着的server的列表,然后就可以做分片逻辑,每个server只处理一部分告警规则 2,界面是js、css、html渲染的,这些静态资源文件可以使用nginx来serve,也可以使用webapi来serve,js拉取数据是走的webapi的接口 3,agent是推,exporter是拉 4,是的
作者回复: 可以
作者回复: v6.0.0.ga.3 应该是支持的,我是macbook m1,是可以的
作者回复: 是Server定期从Prometheus里拉指标进行检测
作者回复: 没看懂