23 | ReplicaManager（上）：必须要掌握的副本管理类定义和核心字段

胡夕

你好，我是胡夕。
今天，我们要学习的是 Kafka 中的副本管理器 ReplicaManager。它负责管理和操作集群中 Broker 的副本，还承担了一部分的分区管理工作，比如变更整个分区的副本日志路径等。
你一定还记得，前面讲到状态机的时候，我说过，Kafka 同时实现了副本状态机和分区状态机。但对于管理器而言，Kafka 源码却没有专门针对分区，定义一个类似于“分区管理器”这样的类，而是只定义了 ReplicaManager 类。该类不只实现了对副本的管理，还包含了很多操作分区对象的方法。
ReplicaManager 类的源码非常重要，它是构建 Kafka 副本同步机制的重要组件之一。副本同步过程中出现的大多数问题都是很难定位和解决的，因此，熟练掌握这部分源码，将有助于我们深入探索线上生产环境问题的根本原因，防止以后踩坑。下面，我给你分享一个真实的案例。
我们团队曾碰到过一件古怪事：在生产环境系统中执行删除消息的操作之后，该操作引发了 Follower 端副本与 Leader 端副本的不一致问题。刚碰到这个问题时，我们一头雾水，在正常情况下，Leader 端副本执行了消息删除后，日志起始位移值被更新了，Follower 端副本也应该更新日志起始位移值，但是，这里的 Follower 端的更新失败了。我们查遍了所有日志，依然找不到原因，最后还是通过分析 ReplicaManager 类源码，才找到了答案。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Kafka中的副本管理器ReplicaManager是集群中Broker副本的关键管理者，负责副本的管理、操作和部分分区管理工作。本文分享了一个实际案例，团队在生产环境中执行删除消息操作后，引发了Follower端副本与Leader端副本的不一致问题。通过分析ReplicaManager类源码，找到了问题的根本原因，并提出了解决方案。文章重点介绍了ReplicaManager类的结构和核心字段，以及副本读写操作和管理操作的详细解释。通过深入学习ReplicaManager类的源码，读者能够清晰掌握副本管理的主要源码，理解副本成为Leader或者Follower时需要执行的逻辑，从而帮助应对实际遇到的副本操作问题。整体而言，本文通过实际案例和源码解析，深入剖析了Kafka中ReplicaManager类的重要性和应用，为读者提供了深入了解副本管理的知识和技术指导。ReplicaManager类的定义和重要字段，以及重要的自定义字段，包括logManager、metadataCache、logDirFailureChannel、四个Purgatory相关的字段、controllerEpoch、allPartitions和replicaFetcherManager等，是理解后续ReplicaManager类管理功能的基础。ReplicaManager类是Kafka Broker端管理分区和副本对象的重要组件，对其下辖的Leader副本或Follower副本进行管理。副本管理中的两个重要功能是读取副本对象和写入副本对象，对于Leader副本和Follower副本都有不同的操作。文章还提出了课后讨论问题，引导读者深入思考和交流讨论。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《Kafka 核心源码解读》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

胡夕
置顶
你好，我是胡夕。我来公布上节课的“课后讨论”题答案啦～上节课，我们重点学习了ReplicaFetcherThread类的源码。课后我请你思考updateFetchOffsetAndMaybeMarkTruncationComplete方法是做什么用的。其实这个方法的主要目的是将给定的一组分区去刷新Fetcher线程读取它们的位移值以及设置截断完成与否的状态。当FetcherThread在执行日志截断操作时需要调用该方法。比如如果截断到高水位值，那么updateFetchOffsetAndMaybeMarkTruncationComplete会将这些分区的读取位移值设置为高水位处。 okay，你同意这个说法吗？或者说你有其他的看法吗？我们可以一起讨论下。
2020-06-23

1
张子涵
private def offlinePartitionCount: Int = { allPartitions.values.iterator.count(_ == HostedPartition.Offline) } private def onlinePartitionCount: Int = { allPartitions.values.iterator.count(_ == HostedPartition.Online) } 照葫芦画瓢，我最会了：）
作者回复: 哈哈哈，��
2020-08-28


伯安知心
private def onlinePartitionCount:Int={ allPartitions.values.iterator.count(_ ==HostedPartition.Online) }
作者回复: 题目出的好像有点简单了，哈哈哈：）
2020-06-18


mushan
老师你讲的那个真实案例能否再细讲一下？deleteRecords为什么会在那两步之间执行？follower副本从leader副本拉取到的消息不是顺序执行的吗？
2021-09-24
2

梁聪明
private def offlinePartitionCount: Int = { allPartitions.values.iterator.count(_ == HostedPartition.Online) } 从所有分区中迭代并找出online的分区
2020-09-01



收起评论