极客时间-轻松学习，高效学习-极客邦

huxi_2b 置顶

2019-06-11

结尾处增加了一张图，提炼了02中讲到的Kafka概念和术语，希望能够帮助到你：）

 3

 34
明翼

2019-06-06

看了不少留言，大有裨益，算是总结。不从follower读几个原因：1，kafka的分区已经让读是从多个broker读从而负载均衡，不是MySQL的主从，压力都在主上；2，kafka保存的数据和数据库的性质有实质的区别就是数据具有消费的概念，是流数据，kafka是消息队列，所以消费需要位移，而数据库是实体数据不存在这个概念，如果从kafka的follower读，消费端offset控制更复杂；3，生产者来说，kafka可以通过配置来控制是否等待follower对消息确认的，如果从上面读，也需要所有的follower都确认了才可以回复生产者，造成性能下降，如果follower出问题了也不好处理

 6

 72
we

2019-06-06

老师这个结构，为什么不用图表示。



 65
时光剪影

2019-06-16

整理一遍个人的理解：

Kafka体系架构=M个producer +N个broker +K个consumer+ZK集群

producer:生产者

Broker：服务代理节点，Kafka服务实例。
n个组成一个Kafka集群，通常一台机器部署一个Kafka实例，一个实例挂了其他实例仍可以使用，体现了高可用

consumer：消费者
消费topic 的消息，一个topic 可以让若干个consumer消费，若干个consumer组成一个 consumer group ，一条消息只能被consumer group 中一个consumer消费，若干个partition 被若干个consumer 同时消费，达到消费者高吞吐量

topic ：主题

partition：一个topic 可以拥有若干个partition（从 0 开始标识partition ），分布在不同的broker 上，实现发布与订阅时负载均衡。producer 通过自定义的规则将消息发送到对应topic 下某个partition，以offset标识一条消息在一个partition的唯一性。
一个partition拥有多个replica，提高容灾能力。
replica 包含两种类型：leader 副本、follower副本，
leader副本负责读写请求，follower 副本负责同步leader副本消息，通过副本选举实现故障转移。
partition在机器磁盘上以log 体现，采用顺序追加日志的方式添加新消息、实现高吞吐量

展开

作者回复: 厉害！感觉比我写的简洁：）

 5

 35
邋遢的流浪剑客

2019-06-06

如果允许follower副本对外提供读服务（主写从读），首先会存在数据一致性的问题，消息从主节点同步到从节点需要时间，可能造成主从节点的数据不一致。主写从读无非就是为了减轻leader节点的压力，将读请求的负载均衡到follower节点，如果Kafka的分区相对均匀地分散到各个broker上，同样可以达到负载均衡的效果，没必要刻意实现主写从读增加代码实现的复杂程度

作者回复: 是的。前些天在知乎上就这个问题也解答了一下，有兴趣可以看看：https://www.zhihu.com/question/327925275/answer/705690755

 1

 30
骨汤鸡蛋面

2019-06-06

建议在文章中使用topic、consumer 等代替主题、消费者实例等表述，对了解kafka的人来说，更自然一点

作者回复: 嗯嗯，好的：）



 19
永光

2019-06-10

为什么 Kafka 不像 MySQL 那样允许追随者副本对外提供读服务？

答：因为mysql一般部署在不同的机器上一台机器读写会遇到瓶颈，Kafka中的领导者副本一般均匀分布在不同的broker中，已经起到了负载的作用。即：同一个topic的已经通过分区的形式负载到不同的broker上了，读写的时候针对的领导者副本，但是量相比mysql一个还实例少太多，个人觉得没有必要在提供度读服务了。（如果量大还可以使用更多的副本，让每一个副本本身都不太大）不知道这样理解对不对?

作者回复: 我个人觉得是很不错的答案，自己也学到了一些：）



 17
莫道不销魂

2019-06-11

老师，我想问下
1、 kafka是按照什么规则将消息划分到各个分区的？
2、既然同一个topic下的消息分布在不同的分区，那是什么机制将topic、partition、record关联或者说管理起来的？

作者回复: 1. 如果producer指定了要发送的目标分区，消息自然是去到那个分区；否则就按照producer端参数partitioner.class指定的分区策略来定；如果你没有指定过partitioner.class，那么默认的规则是：看消息是否有key，如果有则计算key的murmur2哈希值%topic分区数；如果没有key，按照轮询的方式确定分区。
2. 这个层级其实是逻辑概念。在物理上还是以日志段（log segment）文件的方式保存，日志段文件在内存中有对应的Java对象，里面关联了你说的这些。

 1

 10
jacke

2019-06-22

胡老师：
       还想问个分区的问题，比如一个topic分为0，1，2 个分区
       写入0到9条消息，按照轮训分布:
              0分区：0，1，2，9
              1分区：3，4，5，
              2分区：6，7，8
        那对于消费端来说，不管是p2p点对点模式，还是push/sub模式来说，
        如何保证消费端的读取顺序也是从0到9？因为0到9条消息是分布在3个
        分区上的，同时消费者是主动轮训模式去读分区数据的，
        有没有可能读到后面写的数据呢？比如先读到5在读到4？
        ps:刚开始学习，问题比较多，谅解


展开

作者回复: 目前Kafka的设计中多个分区的话无法保证全局的消息顺序。如果一定要实现全局的消息顺序，只能单分区

 1

 9
然行

2019-06-06

kafka客户端读操作是会移动broker中分区的offset，如果副本提供读服务，副本更变offset，再回同步领导副本，数据一致性就无法得到保障

 1

 7
(´田ω田`)

2019-06-06

1、主题中的每个分区都只会被组内的一个消费者实例消费，其他消费者实例不能消费它。
2、假设组内某个实例挂掉了，Kafka 能够自动检测到，然后把这个 Failed 实例之前负责的分区转移给其他活着的消费者。

意思是1个分区只能同时被1个消费者消费，但是1个消费者能同时消费多个分区是吗？那1个消费者里面就会有多个消费者位移变量？
如果1个主题有2个分区，消费者组有3个消费者，那至少有1个消费者闲置？

作者回复: 在一个消费者组下，一个分区只能被一个消费者消费，但一个消费者可能被分配多个分区，因而在提交位移时也就能提交多个分区的位移。

针对你说的第二种情况，答案是：是的。有一个消费者将无法分配到任何分区，处于idle状态。



 7
ban

2019-06-08

老师这个结构，为什么不用图表示。



 6
dbo

2019-06-06

Myaql中从追随者读取数据对server和client都没有影响，而Kafka中从追随者读取消息意味着消费了数据，需要标记该数据被消费了，涉及到做一些进度维护的操作，多个消费实例做这些操作复杂性比较高，如果可以从追随者读也可能会牺牲性能，这是我的理解，请老师指正。

作者回复: 我个人认为维护成本不高。Kafka中消费进度由clients端来操作，即消费者来决定什么时候提交位移，而且是提交到专属的topic上，与副本本身关联不大。实际上社区最近正在讨论是否允许follower副本提供读服务。不过我同意的是，follower副本提供读服务后会推高follower所在broker的磁盘读IO

 1

 4
巧克力黑

2019-07-02

老师，你好
假如只有一个Producer进程，Kafka只有一分区。Producer按照1，2，3，4，5的顺序发送消息，Kafka这个唯一分区收到消息一定是1，2，3，4，5么？ Producer端，网络，数据格式等因素，会不会导致Kafka只有一个分区接收到数据顺序跟Producer发送数据顺序不一致

作者回复: 如果retries>0并且max.in.flight.requests.per.connection>1有可能出现消息乱序的情况



 3
funnyx

2019-07-02

胡老师，您好，最近正在学习Kafka，看了您的文章，感觉获益匪浅，但是有个地方还请指教一下，在Kafka官网看的，”Each partition has one server which acts as the "leader" and zero or more servers which act as "followers". 请问这里的server该作何理解？

作者回复: server = Broker



 3
趙衍

2019-06-07

我之前在学习Kafka的时候也有过这个问题，为什么Kafka不支持读写分离，让从节点对外提供读服务？
其实读写分离的本质是为了对读请求进行负载均衡，但是在Kafka中，一个topic的多个Prtition天然就被分散到了不同的broker服务器上，这种架构本身就解决了负载均衡地问题。也就是说，Kafka的设计从一刻开始就考虑到了分布式的问题，我觉得这是Linkedln开发团队了不起的地方。
尽管如此，我觉得还有一个问题我没有想明白，如果Producer就是对某些broker中的leader副本进行大量的写入，或者Consumer就是对某些broker中的leader副本进行大量的拉取操作，那单台broker服务器的性能不还是成为了整个集群的瓶颈？请问老师，这种情况Kafka是怎么解决的呢？

展开

作者回复: 只能是分散负载了，多做一些分区。



 3
QQ怪

2019-06-06

kafka能否做到多个消费者消费一个生产者生产的数据，并能保证每个消费者消费的消息不会重复，做到并行消费?

作者回复: Kafka提供了消费者组实现你说的这个需求~~



 3
Mick

2019-07-06

老师，同一主题下的分区有没有可能到不同的borker上？同一分区的副本有没有可能在不同的borker上

作者回复: “同一主题下的分区有没有可能到不同的borker上？” ——非常可能，而且也是期望的结果。

“同一分区的副本有没有可能在不同的borker上” —— 必须如此。同一分区的不同副本必然在不同的broker上。



 2
莫道不销魂

2019-07-02

老师，一个分区的N个副本是在同个Broker中的吗，还是在不同的Broker中，还是说是随机的？

作者回复: 一个分区的N个副本一定在N个不同的Broker上。

 2

 2
sljoai

2019-06-11

老师，请问一下影响KafkaConsumer.poll能否读取出数据的因素有哪些呢？
场景：使用assign的方式获取数据，且poll的超时时间设置成1s。
1.消息本身较大时，当将max.partition.fetch.bytes设置成52428800（50MB）时无法读取出数据；当将max.partition.fetch.bytes变小些时，比如10M，就可以读取出数据。
2.消息本身较小时，max.partition.fetch.bytes为50MB时，也能读取出数据；

作者回复: 取不出数据时，有什么报错吗？另外你的fetch.max.bytes值多少？



 2