Kafka核心技术与实战
胡夕
人人贷计算平台部总监,Apache Kafka Contributor
立即订阅
8408 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么要学习Kafka?
免费
Kafka入门 (5讲)
01 | 消息引擎系统ABC
02 | 一篇文章带你快速搞定Kafka术语
03 | Kafka只是消息引擎系统吗?
04 | 我应该选择哪种Kafka?
05 | 聊聊Kafka的版本号
Kafka的基本使用 (3讲)
06 | Kafka线上集群部署方案怎么做?
07 | 最最最重要的集群参数配置(上)
08 | 最最最重要的集群参数配置(下)
客户端实践及原理剖析 (14讲)
09 | 生产者消息分区机制原理剖析
10 | 生产者压缩算法面面观
11 | 无消息丢失配置怎么实现?
12 | 客户端都有哪些不常见但是很高级的功能?
13 | Java生产者是如何管理TCP连接的?
14 | 幂等生产者和事务生产者是一回事吗?
15 | 消费者组到底是什么?
16 | 揭开神秘的“位移主题”面纱
17 | 消费者组重平衡能避免吗?
18 | Kafka中位移提交那些事儿
19 | CommitFailedException异常怎么处理?
20 | 多线程开发消费者实例
21 | Java 消费者是如何管理TCP连接的?
22 | 消费者组消费进度监控都怎么实现?
深入Kafka内核 (5讲)
23 | Kafka副本机制详解
24 | 请求是怎么被处理的?
25 | 消费者组重平衡全流程解析
26 | 你一定不能错过的Kafka控制器
27 | 关于高水位和Leader Epoch的讨论
管理与监控 (12讲)
28 | 主题管理知多少?
29 | Kafka动态配置了解下?
30 | 怎么重设消费者组位移?
31 | 常见工具脚本大汇总
32 | KafkaAdminClient:Kafka的运维利器
33 | Kafka认证机制用哪家?
34 | 云环境下的授权该怎么做?
35 | 跨集群备份解决方案MirrorMaker
36 | 你应该怎么监控Kafka?
37 | 主流的Kafka监控框架
38 | 调优Kafka,你做到了吗?
39 | 从0搭建基于Kafka的企业级实时日志流处理平台
高级Kafka应用之流处理 (3讲)
40 | Kafka Streams与其他流处理平台的差异在哪里?
41 | Kafka Streams DSL开发实例
42 | Kafka Streams在金融领域的应用
结束语 (1讲)
结束语 | 以梦为马,莫负韶华!
特别放送 (2讲)
加餐 | 搭建开发环境、阅读源码方法、经典学习资料大揭秘
用户故事 | 黄云:行百里者半九十
Kafka核心技术与实战
登录|注册

09 | 生产者消息分区机制原理剖析

胡夕 2019-06-22
我们在使用 Apache Kafka 生产和消费消息的时候,肯定是希望能够将数据均匀地分配到所有服务器上。比如很多公司使用 Kafka 收集应用服务器的日志数据,这种数据都是很多的,特别是对于那种大批量机器组成的集群环境,每分钟产生的日志量都能以 GB 数,因此如何将这么大的数据量均匀地分配到 Kafka 的各个 Broker 上,就成为一个非常重要的问题。
今天我就来和你说说 Kafka 生产者如何实现这个需求,我会以 Java API 为例进行分析,但实际上其他语言的实现逻辑也是类似的。

为什么分区?

如果你对 Kafka 分区(Partition)的概念还不熟悉,可以先返回专栏第 2 期回顾一下。专栏前面我说过 Kafka 有主题(Topic)的概念,它是承载真实数据的逻辑容器,而在主题之下还分为若干个分区,也就是说 Kafka 的消息组织方式实际上是三级结构:主题 - 分区 - 消息。主题下的每条消息只会保存在某一个分区中,而不会在多个分区中被保存多份。官网上的这张图非常清晰地展示了 Kafka 的三级结构,如下所示:
现在我抛出一个问题你可以先思考一下:你觉得为什么 Kafka 要做这样的设计?为什么使用分区的概念而不是直接使用多个主题呢?
其实分区的作用就是提供负载均衡的能力,或者说对数据进行分区的主要原因,就是为了实现系统的高伸缩性(Scalability)。不同的分区能够被放置到不同节点的机器上,而数据的读写操作也都是针对分区这个粒度而进行的,这样每个节点的机器都能独立地执行各自分区的读写请求处理。并且,我们还可以通过添加新的节点机器来增加整体系统的吞吐量。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Kafka核心技术与实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(66)

  • kevin
    之前做车辆实时定位(汽车每10s上传一次报文)显示的时候,发现地图显示车辆会突然退回去,开始排查怀疑是后端处理的逻辑问题导致的,但是后台保证了一台车只被一个线程处理,理论上不会出现这种情况;于是猜测是不是程序接收到消息的时候时间序就已经乱了,查阅了kafka相关资料,发现kafka同一个topic是无法保证数据的顺序性的,但是同一个partition中的数据是有顺序的;根据这个查看了接入端的代码(也就是kafka的生产者),发现是按照kafka的默认分区策略(topic有10个分区,3个副本)发送的;于是将此处发送策略改为按照key(车辆VIN码)进行分区,后面车辆的定位显示就正常了。
    2019-06-22
    122
  • 邋遢的流浪剑客
    之前学习Kafka的时候确实有点忽略了生产者分区策略这一块内容,感谢老师的分享,特意去看了一下源码,Java客户端默认的生产者分区策略的实现类为org.apache.kafka.clients.producer.internals.DefaultPartitioner。默认策略为:如果指定了partition就直接发送到该分区;如果没有指定分区但是指定了key,就按照key的hash值选择分区;如果partition和key都没有指定就使用轮询策略。而且如果key不为null,那么计算得到的分区号会是所有分区中的任意一个;如果key为null并且有可用分区时,那么计算得到的分区号仅为可用分区中的任意一个
    2019-06-22
    19
  • Adol
    老师好,在消息重试的时候,分区策略会重新再计算一次吗?比如一开始选择到5号分区,但是5号分区有问题导致重试,重试的时候可以重试发送到别的分区上吗?

    作者回复: 不会的。消息重试只是简单地将消息重新发送到之前的分区

    2019-06-23
    1
    8
  • mickle
    分区应该是实现 org.apache.kafka.clients.producer.Partitioner 接口吧,老师写的Producer

    作者回复: 嗯嗯,确实是写错了,抱歉~~

    2019-06-22
    6
  • Geek_817ea4
    总结:首先判断ProducerRecord中的partition字段是否有值,即是否在创建消息记录的时候直接指定了分区;如果指定了分区,则直接将该消息发送到指定的分区,否则调用分区器的partition方法,执行分区策略;如果用户配置了自己写的分区器,且在生产者配置是指定了,则使用用户指定的分区器,否则使用默认的分区器,即DefaultPartitioner;如果指定了key,则使用该key进行hash操作,并转为正数,然后对topic对应的分区数量进行取模操作并返回一个分区;如果没有指定key,则通过先产生随机数,之后在该数上自增的方式产生一个数,并转为正数之后进行取余操作。
    2019-07-01
    1
    5
  • QQ怪
    我们公司一直使用单个分区保持消息顺序性,看了老师分享的东西收益很多啊,准备回去好好分析改造下

    作者回复: 我们公司之前也有一个业务是单分区,要保证全局顺序。后来发现其实使用key+多分区也可以实现。反正保证同一批因果依赖的消息分到一个分区就可以

    2019-06-22
    1
    4
  • Geek_b809ff
    老师,想请教几个问题:
    1、key是不是必须得完全一样,才能保证会发送到同一个分区?
    2、如果kafka搭了集群,有三个broker,分别是broker1、broker2、broker3。这时候我对名称为test的topic发送消息,key设置为A,消息会随机发送到三个broker上去吗?那这样的话顺序不就乱了吗?如果我想保证所有的消息都顺序,是不是需要指定发送到其中一个broker?

    作者回复: 1. 根据默认分区策略,同一个key的消息肯定会发送到同一个分区
    2. 首先,你的消息会被发送到某个分区的leader副本上。这个分区的leader副本只能存在于3个broker中的一个,但是如果test的副本数是3,那么一条消息也会被备份到其他两个broker上。只是只有leader副本对外提供服务,因此没有顺序乱的情况出现。
    3. 如果想保证顺序,指定消息key即可,这样能保证分送到同一个分区上。是否发到同一个broker上无关紧要

    2019-08-29
    2
  • hgf
    如果消费过程中出现rebalance,那么可能造成因果关系之消费了因后rebalance,然后不处理之前的partition了,后面的消费者也无法处理该partition的“果”,请问,您对这种情况怎么处理的呢?

    作者回复: 可以试试sticky assignor,即设置consumer端参数partition.assignment.strategy=class org.apache.kafka.clients.consumer.StickyAssignor

    2019-07-10
    1
    2
  • calljson
    kafka的主题只有一级、像mq可以进行主题分层:一级主题、二级主题。kafka为何这样设计?

    作者回复: 嗯嗯,这个不太清楚,不敢妄言。。。

    2019-06-26
    2
  • 莫问流年
    我觉得最常用的是按消息键保序策论和轮询策略,分别对不同类型的top。前者可以保证消息处理顺序不会打乱,比如会员权益发放与变更,必须先发放才能变更。后者保证尽量利用负载均衡的性能优势,主要针对消息顺序改变不影响处理结果的场合,比如新人任务发券先给谁发都一样,但是如果只有完成任务的前n个名额才有券拿,就需要采用按消息键保存策略保证发放顺序。
    2019-06-23
    2
  • WL
    老师能不能有空能不能讲讲kafka和rocketMQ的对比, 我用下来感觉整体挺像的但是具体使用场景和性能优劣方面还是有点不知道该使用选择, 谢谢.

    作者回复: 之前也曾经回答过,不一定客观,姑且听之。在我看来RocketMQ与Kafka的主要区别 :1. Kafka吞吐量大,多是面向大数据场景。RocketMQ吞吐量也很强, 不过它号称是金融业务级的消息中间件,也就是说可以用于实际的业务系统;2. RocketMQ毕竟是阿里出品,在国内技术支持力度要比Kafka强;3. Kafka现在主要发力Streaming,RocketMQ在流处理这块表现如何我不太清楚,至少streaming不是它现阶段的主要卖点。

    其他方面这两者确实都差不多~~

    2019-06-22
    2
  • 风轻扬
    老师,我见到有网友提问,说是消费者出现reblance的情况时。key-ordering策略可能会导致消费了“因“,reblance之后,无法消费 “果“。您给出的建议是,显示设置consumer端参数partition.assignment.strategy。这个设置。是不是只要使用了key保序策略,就一定要设置上呢?消费过程中出现reblance是很正常的啊

    作者回复: 嗯嗯,可能我没说清楚。如你说所rebalance是非常常见,如果再要求消费时消息有明确前后关系,这个就很复杂了。常见的做法是单分区来保证前后关系,但是这可能不符合很多使用场景。
    我给出了另一个建议,就是设置partition.assignment.strategy=Sticky,这是因为Sticky算法会最大化保证消费分区方案的不变更。假设你的因果消息都有相同的key,那么结合Sticky算法有可能保证即使出现rebalance,要消费的分区依然有原来的consumer负责。

    2019-07-28
    1
    1
  • hgf
    老师您好,跨地区的kafka集群,创建的两个partition都在一个地方怎么办呢?创建topic时可以选择在哪些节点上创建partition吗?默认是随机选择节点创建partition吗?

    作者回复: 可以选择。kafka-topics支持在创建topic时指定partition放在那些broker上

    2019-07-10
    1
  • 非想
    老师您好,Kafka支持事务消息吗?

    作者回复: 0.11开始支持事务了。嗯,并没有所谓的事务消息,不过倒是有事务标记消息(transaciton marker)。事务Consumer靠它来判断消息的可见性——即什么消息属于已提交事务的消息,事务consumer能够读取。

    2019-07-06
    1
  • Kun3375
    有几个疑惑…
    1.请问对于事务消息的幂等,broker 端的实现和也和普通消息一样吗?
    2.如果这样的话是如何做到多分区多会话幂等的呢?
    3.对于实践来说,事务的幂等是否还需要手动开启 enable.idempotence?

    作者回复: 1. 引入了新类型的消息来支持事务,如transaction marker消息
    2. 主要依赖transaction coordinator组件使用两阶段提交来保证多分区的原子性写入
    3. 需要开启

    2019-06-28
    1
  • 没啥好看的
    如果我用key保序这种方式,key有2w个,搞2w个分区,这么做合适吗

    作者回复: 不太合适。超多分区导致磁盘性能也会下降。key有2w个,为什么分区也要有2w个呢?

    2019-06-27
    3
    1
  • hxy
    老师你好,如果后面增加了分区的数目,按key保序还能生效吗?

    作者回复: 不能了~~

    2019-06-26
    1
  • 蒋良权
    老师,我有个疑问,一个topic三个分区与三个单分区的topic在吞吐量以及负载均衡上有什么区别吗?

    作者回复: 感觉没什么区别,只是缓存中的微弱区别罢了。

    2019-06-25
    1
    1
  • EricJones
    分区实现负载均衡提高吞吐量,一台机器多个分区也会有负载均衡效果?也会提高吞吐量?如果会那我一台机器一个kafka 分多少分区合适?我看有人一台机器一个kafka也分了五六个分区。这样做有什么好处?

    作者回复: 通常1台broker上有多个分区依然能提升TPS,毕竟单个分区消耗不掉大部分的系统资源。当然一切以实际测试结果为准。

    2019-06-24
    1
  • 风中花
    打卡继续。老师我有个小白问题 按消息键保序策略 实现方法 return Math.abs(key.hashCode()) % partitions.size(); 如果key 不变,增加分区数(partitions.size();)。那么这个算法,是不是就变成原来key1的消息在1区,增加分区后会不会变成ke1的消息放到其他区呢? 我的理解是不是不对啊?

    作者回复: 同意。其实任何分区策略都要考虑分区数变更的情况,防止造成数据倾斜。

    2019-06-24
    1
    1
收起评论
66
返回
顶部