极客时间-轻松学习，高效学习-极客邦

KEIO
2023-01-28 来自重庆
老师请教一下可以对比一下Grafana和Altermanager的告警管理能力吗？
作者回复: Grafana是个单点，如果告警规则很多，可能会有瓶颈；其次是Grafana的告警规则配置我是感觉真难用，不知道其他人怎么看。alertmanager不负责告警规则管理，只负责告警事件的后续，对于告警事件的后续处理，包括分组、屏蔽、抑制，还是比较齐全的，不过alertmanager更多的是给一个团队使用，如果很多团队都使用一个alertmanager来管理告警，就容易混乱，需要制定良好的规范，需要制定良好的规范，需要制定良好的规范，重要的事情说三遍
共 3 条评论
2
骁毅
2023-02-19 来自天津
“因为 Prometheus 的 Yaml 文件管理方式不太方便做公司级协同管理。Grafana 和夜莺都可以解决这个问题，” grafana可以对prometheus的yaml进行管理么？
作者回复: 不能，grafana是自己实现了告警引擎，用grafana自己的告警机制就可以了
共 2 条评论
1
隆哥
2023-01-31 来自福建
快猫的采集器我觉得很好，基本覆盖了常用服务的数据采集，只需要修改配置一下就可以了。但是我有一个疑惑，比如我监控几百台服务器，每台服务器有可能有不同的服务需要被采集，如果这样子的话，快猫服务采集的那些配置文件如何管理呢？用表格来做扁平化管理嘛。
作者回复: 配置管理这块，建议是ansible、puppet之类的工具，telegraf、datadog-agent这些目前也都是修改配置文件的方式，后面也有考虑在Nightingale里开放agent的配置管理能力，不过还没有时间搞
1
Geek_1a3949
2023-01-29 来自上海
尝试回答下课后问题：告警表达式是带判断的PromQL，查询到值表示触发了阈值，查询不到表示未触发；而告警恢复的时候，PromQL表达式返回空值，故没有$value。
作者回复: 👍🏻
共 3 条评论
1
Amosヾ
2023-01-25 来自江苏
原生k8s支持告警自愈吗？webhook的方式
作者回复: 这个问法欠妥，K8s本身是可以处理节点故障自动迁移pod的，从这个角度来讲，是有告警自愈的能力的。webhook是prometheus、nightingale等这种监控系统的职能，产生告警之后通过webhook调用第三方的系统，prometheus、nightingale、zabbix等都可以做
1
peter
2023-01-25 来自北京
请教老师几个问题： Q1：server与Redis之间的心跳有什么作用？ Q2：webapi没有界面吗？ “Webapi 模块提供 HTTP 接口，与前端 JavaScript 交互”，从这句话看，好像webapi没有界面。 “浏览器访问 nwebapi 提供的 18000 端口就能看到登录页面”，从这句话看，好像webapi有界面。 Q3：架构图中，agents和exporter都采集数据，有什么区别？ Q4：Prometheus和Nightingale都可以处理告警，采用Nightingale后，就禁掉Prometheus自身的告警功能，是这样吗？
作者回复: 1，server使用redis心跳，这样所有的server就都知道活着的server的列表，然后就可以做分片逻辑，每个server只处理一部分告警规则 2，界面是js、css、html渲染的，这些静态资源文件可以使用nginx来serve，也可以使用webapi来serve，js拉取数据是走的webapi的接口 3，agent是推，exporter是拉 4，是的
1
祥贵
2023-06-11 来自四川
夜莺分为开源版和企业版，开源版能解决这些问题？
作者回复: 可以
云韵
2023-04-12 来自浙江
docker 部署的方式不支持Mac的arm64架构吗
作者回复: v6.0.0.ga.3 应该是支持的，我是macbook m1，是可以的
共 2 条评论
GentleQ
2023-02-03 来自广东
老师，请问告警检测是在Agent推指标到Server时做的，还是Server定期从Prometheus里拉指标进行检测的呢
作者回复: 是Server定期从Prometheus里拉指标进行检测
共 3 条评论
SICUN
2023-02-01 来自北京
老师能不能谈一下边沿触发告警和周期触发告警的适用场景？
作者回复: 没看懂
共 2 条评论