运维监控系统实战笔记
秦晓辉
快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发
9147 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 25 讲
运维监控系统实战笔记
15
15
1.0x
00:00/00:00
登录|注册

16|组件监控:Elasticsearch的关键指标及采集方法有哪些?

你好,我是秦晓辉。
上一讲我们了解了 Kafka 监控相关的知识,Kafka 是 Java 组件,主要使用 JMX 的方式采集指标。这一讲我们趁热打铁,介绍另一个 Java 组件:Elasticsearch(简称 ES ),Elasticsearch 直接通过 HTTP 接口暴露指标,相比 Kafka 真是简单太多了。
Elasticsearch 的监控同样包含多个方面,操作系统、JVM 层面的关注点和 Kafka 是一样的,这里不再赘述。我们重点关注 Elasticsearch 本身的指标,它自身的指标有很多,哪些相对更关键呢?这就要从 Elasticsearch 的职能和架构说起了。

Elasticsearch 的职能和架构

Elasticsearch 的核心职能就是对外提供搜索服务,所以搜索请求的吞吐和延迟是非常关键的,搜索是靠底层的索引实现的,所以索引的性能指标也非常关键,Elasticsearch 由一个或多个节点组成集群,集群自身是否健康也是需要我们监控的。
ElasticSearch 的架构非常简单,一个节点就可以对外提供服务,不过单点的集群显然有容灾问题,如果挂掉了就万事皆休了。一般生产环境,至少搭建一个三节点的集群。
Elasticsearch架构图
三个节点分别部署三个 Elasticsearch 进程,这三个进程把 cluster.name 都设置成相同的值,就可以组成一个集群。Elasticsearch 会自动选出一个 master 节点,负责管理集群范围内所有的变更,整个选主过程是自动的,不用我们操心。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入介绍了Elasticsearch的关键指标及采集方法,旨在帮助读者全面了解Elasticsearch监控。文章首先强调了搜索请求的吞吐和延迟、索引的性能指标以及集群健康状况的重要性。接着详细介绍了Elasticsearch通过HTTP接口暴露指标的方式,包括使用curl测试集群健康状况的方法。此外,还介绍了获取节点统计信息的接口,以及两种不同的监控采集方式。文章内容丰富,涵盖了Elasticsearch监控的关键指标和采集方法,对于需要了解Elasticsearch监控的读者具有很高的参考价值。同时,还提供了Categraf采集Elasticsearch指标的配置方法,为读者提供了实际操作指南。 Elasticsearch的核心职能是提供搜索服务,支持海量数据的索引和集群组成。因此,搜索性能、索引性能、集群健康状况以及集群中各个节点的健康状况是监控的核心指标。Elasticsearch通过简单的HTTP接口暴露指标,返回JSON数据,易于拉取和解析。核心关注点是`/_cluster/health`和`/_nodes/stats`接口,分别用于获取整个集群和节点粒度的监控数据。`/_nodes/stats`接口返回丰富的数据,包括索引类指标和JVM相关指标,重点关注这些内容。 学完本文内容后,读者将对Elasticsearch的关键指标有了一定了解,可以一起攒Elasticsearch的告警规则,分享PromQL,也欢迎将内容分享给身边的朋友,一起学习。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《运维监控系统实战笔记》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • peter
    请教老师几个问题: Q1:文中的例子是生产环境的集群还是自己本机上的虚拟机? Q2:number_of_nodes" 和"number_of_data_nodes" 有什么区别? Q3:categraf和ES都能采集OS指标,这两种采集方式会有冲突吗?也就是对同一个OS指标两种方式是不同的值。 Q4:"indices"列出的指标怎么看起来和索引没有什么关系啊。

    作者回复: 1,测试的vm 2,一个是所有节点都算上,一个是指算data节点 3,不冲突,不过只需要一种方式采集即可,否则一个数据采集两遍,命名也不同,意义不大 4,我感觉挺有关系的呢😂

    2023-02-14归属地:北京
    1
  • 林龍
    categraf实战中修改配置后是要重启categraf吗?能不能不通过重启的方式指定配置文件进行部分配置的变更

    作者回复: 改完了之后可以kill -HUP `pidof categraf`

    2023-02-21归属地:广东
  • 顶级心理学家
    jolokia是否能采集hbase的jmx数据,像kafka一样监控。

    作者回复: 可以

    2023-02-15归属地:北京
  • 晴空万里
    咋一个PromQL都没有?
    2023-04-10归属地:广东
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部