极客时间-轻松学习，高效学习-极客邦

kevin

2019-06-22

之前做车辆实时定位(汽车每10s上传一次报文)显示的时候，发现地图显示车辆会突然退回去，开始排查怀疑是后端处理的逻辑问题导致的，但是后台保证了一台车只被一个线程处理，理论上不会出现这种情况；于是猜测是不是程序接收到消息的时候时间序就已经乱了，查阅了kafka相关资料，发现kafka同一个topic是无法保证数据的顺序性的，但是同一个partition中的数据是有顺序的；根据这个查看了接入端的代码(也就是kafka的生产者)，发现是按照kafka的默认分区策略(topic有10个分区，3个副本)发送的；于是将此处发送策略改为按照key(车辆VIN码)进行分区，后面车辆的定位显示就正常了。



 137
邋遢的流浪剑客

2019-06-22

之前学习Kafka的时候确实有点忽略了生产者分区策略这一块内容，感谢老师的分享，特意去看了一下源码，Java客户端默认的生产者分区策略的实现类为org.apache.kafka.clients.producer.internals.DefaultPartitioner。默认策略为：如果指定了partition就直接发送到该分区；如果没有指定分区但是指定了key，就按照key的hash值选择分区；如果partition和key都没有指定就使用轮询策略。而且如果key不为null，那么计算得到的分区号会是所有分区中的任意一个；如果key为null并且有可用分区时，那么计算得到的分区号仅为可用分区中的任意一个



 23
Adol

2019-06-23

老师好，在消息重试的时候，分区策略会重新再计算一次吗？比如一开始选择到5号分区，但是5号分区有问题导致重试，重试的时候可以重试发送到别的分区上吗？

作者回复: 不会的。消息重试只是简单地将消息重新发送到之前的分区

 1

 9
Geek_817ea4

2019-07-01

总结：首先判断ProducerRecord中的partition字段是否有值，即是否在创建消息记录的时候直接指定了分区；如果指定了分区，则直接将该消息发送到指定的分区，否则调用分区器的partition方法，执行分区策略；如果用户配置了自己写的分区器，且在生产者配置是指定了，则使用用户指定的分区器，否则使用默认的分区器，即DefaultPartitioner；如果指定了key，则使用该key进行hash操作，并转为正数，然后对topic对应的分区数量进行取模操作并返回一个分区；如果没有指定key，则通过先产生随机数，之后在该数上自增的方式产生一个数，并转为正数之后进行取余操作。

 1

 6
QQ怪

2019-06-22

我们公司一直使用单个分区保持消息顺序性，看了老师分享的东西收益很多啊，准备回去好好分析改造下

作者回复: 我们公司之前也有一个业务是单分区，要保证全局顺序。后来发现其实使用key+多分区也可以实现。反正保证同一批因果依赖的消息分到一个分区就可以

 1

 6
mickle

2019-06-22

分区应该是实现 org.apache.kafka.clients.producer.Partitioner 接口吧，老师写的Producer

作者回复: 嗯嗯，确实是写错了，抱歉~~



 6
hgf

2019-07-10

老师您好，跨地区的kafka集群，创建的两个partition都在一个地方怎么办呢？创建topic时可以选择在哪些节点上创建partition吗？默认是随机选择节点创建partition吗？

作者回复: 可以选择。kafka-topics支持在创建topic时指定partition放在那些broker上



 3
Geek_b809ff

2019-08-29

老师，想请教几个问题：
1、key是不是必须得完全一样，才能保证会发送到同一个分区？
2、如果kafka搭了集群，有三个broker，分别是broker1、broker2、broker3。这时候我对名称为test的topic发送消息，key设置为A，消息会随机发送到三个broker上去吗？那这样的话顺序不就乱了吗？如果我想保证所有的消息都顺序，是不是需要指定发送到其中一个broker？

作者回复: 1. 根据默认分区策略，同一个key的消息肯定会发送到同一个分区
2. 首先，你的消息会被发送到某个分区的leader副本上。这个分区的leader副本只能存在于3个broker中的一个，但是如果test的副本数是3，那么一条消息也会被备份到其他两个broker上。只是只有leader副本对外提供服务，因此没有顺序乱的情况出现。
3. 如果想保证顺序，指定消息key即可，这样能保证分送到同一个分区上。是否发到同一个broker上无关紧要



 2
风轻扬

2019-07-28

老师，我见到有网友提问，说是消费者出现reblance的情况时。key-ordering策略可能会导致消费了“因“，reblance之后，无法消费 “果“。您给出的建议是，显示设置consumer端参数partition.assignment.strategy。这个设置。是不是只要使用了key保序策略，就一定要设置上呢？消费过程中出现reblance是很正常的啊

作者回复: 嗯嗯，可能我没说清楚。如你说所rebalance是非常常见，如果再要求消费时消息有明确前后关系，这个就很复杂了。常见的做法是单分区来保证前后关系，但是这可能不符合很多使用场景。
我给出了另一个建议，就是设置partition.assignment.strategy=Sticky，这是因为Sticky算法会最大化保证消费分区方案的不变更。假设你的因果消息都有相同的key，那么结合Sticky算法有可能保证即使出现rebalance，要消费的分区依然有原来的consumer负责。

 2

 2
hgf

2019-07-10

如果消费过程中出现rebalance，那么可能造成因果关系之消费了因后rebalance，然后不处理之前的partition了，后面的消费者也无法处理该partition的“果”，请问，您对这种情况怎么处理的呢？

作者回复: 可以试试sticky assignor，即设置consumer端参数partition.assignment.strategy=class org.apache.kafka.clients.consumer.StickyAssignor

 1

 2
calljson

2019-06-26

kafka的主题只有一级、像mq可以进行主题分层：一级主题、二级主题。kafka为何这样设计？

作者回复: 嗯嗯，这个不太清楚，不敢妄言。。。



 2
EricJones

2019-06-24

分区实现负载均衡提高吞吐量，一台机器多个分区也会有负载均衡效果？也会提高吞吐量？如果会那我一台机器一个kafka 分多少分区合适？我看有人一台机器一个kafka也分了五六个分区。这样做有什么好处？

作者回复: 通常1台broker上有多个分区依然能提升TPS，毕竟单个分区消耗不掉大部分的系统资源。当然一切以实际测试结果为准。



 2
莫问流年

2019-06-23

我觉得最常用的是按消息键保序策论和轮询策略，分别对不同类型的top。前者可以保证消息处理顺序不会打乱，比如会员权益发放与变更，必须先发放才能变更。后者保证尽量利用负载均衡的性能优势，主要针对消息顺序改变不影响处理结果的场合，比如新人任务发券先给谁发都一样，但是如果只有完成任务的前n个名额才有券拿，就需要采用按消息键保存策略保证发放顺序。



 2
我已经设置了昵称

2019-06-22

广州机房怎么消费广州partition的数据，consumer如何指定消费的partition。这个能讲下吗

作者回复: 使用这个方法：consumer.assign()直接消息指定分区



 2
WL

2019-06-22

老师能不能有空能不能讲讲kafka和rocketMQ的对比, 我用下来感觉整体挺像的但是具体使用场景和性能优劣方面还是有点不知道该使用选择, 谢谢.

作者回复: 之前也曾经回答过，不一定客观，姑且听之。在我看来RocketMQ与Kafka的主要区别：1. Kafka吞吐量大，多是面向大数据场景。RocketMQ吞吐量也很强，不过它号称是金融业务级的消息中间件，也就是说可以用于实际的业务系统；2. RocketMQ毕竟是阿里出品，在国内技术支持力度要比Kafka强；3. Kafka现在主要发力Streaming，RocketMQ在流处理这块表现如何我不太清楚，至少streaming不是它现阶段的主要卖点。

其他方面这两者确实都差不多~~



 2
非想

2019-07-06

老师您好，Kafka支持事务消息吗？

作者回复: 0.11开始支持事务了。嗯，并没有所谓的事务消息，不过倒是有事务标记消息（transaciton marker）。事务Consumer靠它来判断消息的可见性——即什么消息属于已提交事务的消息，事务consumer能够读取。



 1
Kun3375

2019-06-28

有几个疑惑…
1.请问对于事务消息的幂等，broker 端的实现和也和普通消息一样吗？
2.如果这样的话是如何做到多分区多会话幂等的呢？
3.对于实践来说，事务的幂等是否还需要手动开启 enable.idempotence？

作者回复: 1. 引入了新类型的消息来支持事务，如transaction marker消息
2. 主要依赖transaction coordinator组件使用两阶段提交来保证多分区的原子性写入
3. 需要开启



 1
没啥好看的

2019-06-27

如果我用key保序这种方式，key有2w个，搞2w个分区，这么做合适吗

作者回复: 不太合适。超多分区导致磁盘性能也会下降。key有2w个，为什么分区也要有2w个呢？

 3

 1
hxy

2019-06-26

老师你好，如果后面增加了分区的数目，按key保序还能生效吗？

作者回复: 不能了~~



 1
蒋良权

2019-06-25

老师，我有个疑问，一个topic三个分区与三个单分区的topic在吞吐量以及负载均衡上有什么区别吗？

作者回复: 感觉没什么区别，只是缓存中的微弱区别罢了。

 1

 1