33｜告警：如何搭建基于 HTTP 状态告警？

王炜

你好，我是王炜。
上一节课，我们学习了如何借助 Ingress-Nginx Dashboard 快速搭建业务 HTTP 状态监控。它内置了多项 HTTP 请求指标，例如 TPS、请求成功率、P99 延迟等，这些指标对于我们掌握业务整体的可用性有非常大的帮助。
不过，在生产环境下，人工实时观察这些指标是不现实的，我们需要有一种能够自动发现异常指标的机制，它能在发现异常时发出通知。
这种机制也就是我们常说的告警。
这节课，我会继续深入可观测性，以 HTTP 请求成功率为例，带你从零搭建该指标的告警策略，并在这个过程中进一步讲解告警策略的配置方法，让你掌握给任意指标配置告警策略的能力。
在开始今天的学习之前，你需要按照第 32 讲的内容部署示例应用，并配置好 Prometheus 和 Ingress-Nginx Dashboard。
选择告警指标对于初学者来说，上手编写一段 PromQL 并不容易，为了降低实战门槛，我们直接从 Dashboard 中选择已有的指标配置告警策略。
首先，对 Grafana Service 进行端口转发。
$ kubectl port-forward --namespace prometheus service/prometheus-grafana 3000:80

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文详细介绍了如何搭建基于 HTTP 状态告警系统的全过程，通过配置 Prometheus 和 Ingress-Nginx Dashboard 实现。读者可以学习到如何选择告警指标、配置告警策略和检查告警策略是否生效，以及如何配置告警通知和获取邮箱 SMTP 密码的步骤。文章还介绍了触发告警的步骤以及如何配置 Pod CPU 使用率告警。此外，还提到了其他通知方式的配置。通过配置 PrometheusAlert，读者可以实现丰富的通知渠道，配置过程相对简单。总的来说，本文内容涵盖了从安装到配置各种告警通知的全过程，对于需要监控和管理生产环境中的业务 HTTP 请求状态的读者具有实际指导意义。文章还提到了如何创建 Prometheus 告警策略，并通过配置邮件通知来接收告警，以及介绍了社区维护的 PrometheusRules 集合仓库。通过本文，读者可以全方位掌握业务的健康状态，具备提前发现问题和解决业务隐患的能力。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《云原生架构与 GitOps 实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(1)

最新
精选

夜空中最亮的星
讲解很详细
2023-02-22归属地：北京

1

收起评论