36 | 你应该怎么监控Kafka?
该思维导图由 AI 生成,仅供参考
主机监控
- 深入了解
- 翻译
- 解释
- 总结
Kafka监控一直是技术人员关注的难题。本文从主机监控和JVM监控两个维度详细介绍了如何监控Kafka。在主机监控方面,作者强调了监控Kafka集群Broker所在节点机器的性能,包括机器负载、CPU使用率、内存使用率、磁盘I/O使用率等指标。而在JVM监控方面,文章提到了全面了解Broker进程的重要性,包括堆大小、GC回收器、Full GC发生频率和时长、活跃对象大小等指标。此外,还介绍了如何通过GC日志来查看监控指标。文章还给出了监控Kafka集群的几个方法,包括查看Broker进程是否启动、查看关键日志和线程的运行状态,以及监控关键JMX指标。作者建议从主机和JVM的维度进行监控,并列举了一些重要的Kafka JMX指标。总之,本文通过实例和技术细节,为读者提供了全面了解Kafka监控的指导,对于需要监控Kafka的技术人员具有一定的参考价值。
《Kafka 核心技术与实战》,新⼈⾸单¥68
全部留言(25)
- 最新
- 精选
- 我已经设置了昵称要怎么看到JMX指标呢,能否讲下
作者回复: 无论是Broker端还是Clients端启动前要先设置JMX_PORT,然后使用任何能够连接JMX MBean Server的工具或框架连接(如JConsole)就能看到了
2019-09-0415 - r老师总结的真好。我有个疑问,没找到相关资料做支撑。就是一套kafka集群,最多能容纳多少个topic-partition,这个是集群规模有关吗,
作者回复: 根据社区的报告,Kafka 1.1.0之后可以支持单集群20万个分区。和集群规模不能说没有关系,但其实和集群总的物理硬件资源有很大关系。
2019-08-248 - ykkk88有什么好的开源的监控工具么
作者回复: 我觉得Kafka Manager就挺不错的
2019-08-2525 - 快跑请教老师一下 从监控上能看到读取kafka数据是从页缓存还是磁盘么,对应的指标有哪些?
作者回复: 无法看出。不过你可以监控一下broker的磁盘IO,对于那些同步的consumer而言,磁盘IO读应该很少才对
2020-03-143 - frenco老师好, 请教个问题: 按您之前有个推荐的配置kafka内存的说法,一般堆内存配置6G就好了。 那新生代和老年代默认2:1 分配。 如果只需要6G的内存, 我们生产的机器一般都是64G以上内存, 那机器是不是有很大浪费呢。
作者回复: 那就单台多broker吧,不过网卡最好万兆
2019-11-0823 - 谦寻请教下老师,我们最近遇到一个监控问题,监控各个topic的消息堆积,发现如果业务方由于服务下线,不使用某个consume group了,结果这个group的消息堆积会一直增加,运维就会收到监控告警,但是运维并不好判断哪个group已经不使用了,这个能有什么自动化的手段吗
作者回复: 如果group不使用了,它的状态就是nonactive了,一段时间之后Kafka会自动删除的它数据。如果判断状态的话,新一点版本的Kafka可以使用kafka-consumer-groups --describe --group *** 来查看group状态。
2019-08-2923 - wxr怎样比较好的监控消费延时呢
作者回复: 这个取决于你对消费延时的定义。从Kafka的角度,当poll方法返回后,消息已经算是被消费了,但通常我们获取到消息后还要对消息进行处理,如果你认为处理完成后才算是消费就要加上这部分的时间,但处理逻辑、工具、方法都不尽相同,因此你需要自己来监控消息处理的总时间。
2019-08-2463 - 风中花老师你的公众号怎么找到呢
作者回复: 大数据Kafka技术分享
2019-11-302 - Geek_72a3d3“同时,Load 值一直在增加,也说明这台主机上的负载越来越大。” 老师,您好,Load值好像是越来越小。??
作者回复: 3个值的排序是过去1分钟,5分钟和15分钟,因此表明load越来越大
2019-09-1742 - 外星人你好,单个topic可以支撑的最多partition个数多少啊?我们生产上有个topic超级大,占了整个集群的一半以上的流量,这种情况是需要拆分吗?
作者回复: 如果性能okay而仅仅是你觉得不太好,那么我认为先不用拆分。单个topic最多能有多少partition没有定数,主要还是看底层物理资源。当然分区数过多,使得broker上平均分区数增加的确会降低Kafka的TPS。
2019-08-242