28 | Kafka(二):从Lambda到Kappa,流批一体计算的起源
徐文浩
你好,我是徐文浩。
在上节课里,我们已经了解了 Kafka 的基本架构。不过,对于基于 Kafka 的流式数据处理,我们还有两个重要的问题没有回答:
第一个,Kafka 的分布式是如何实现的呢?我们已经看到了 Kafka 会对数据进行分区,以进行水平扩展。那么,如果我们可以动态添加 Broker 来增加 Kafka 集群的吞吐量,这个集群的上下游是怎么知道的呢?
第二个,在我们有了 Kafka 和 Storm 这样的系统之后,我们的流式处理系统应该怎么搭建呢?我们如何解决可能遇到的各种故障带来的数据不准确的问题呢?
那么,今天这节课,就是要帮助我们回答这两个问题。一方面,今天我们会深入来看一下,Kafka 是如何随着 Broker 的增加和减少,协调上下游的 Producer 和 Consumer 去收发消息的。另一方面,我们会从整个大数据系统的全局视角,来看一下在有了 Kafka 和 Storm 这样的利器之后,我们的大数据系统的整体架构应该如何搭建。
Kafka 的分布式系统的实现
首先,Kafka 系统并没有一个 Master 节点。不过,这一点倒是不让人意外,主要是 Kafka 的整体架构实在太简单了。我们在上一讲就看到了,单个的 Broker 节点,底层就是一堆顺序读写的文件。而要能够分布式地分摊压力,只需要用好 ZooKeeper 就好了。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Kafka(二):从Lambda到Kappa,流批一体计算的起源 本文深入探讨了流式数据处理系统的发展历程和架构演进,重点介绍了Kafka作为流式数据处理系统的特点和局限性,以及Lambda架构和Kappa架构的演进过程。Kafka作为流式数据处理系统具有分布式实现、高可用机制和负载均衡等特点,但难以提供针对单条消息的事务机制和严格的消息顺序保障。Lambda架构将大数据的批处理和实时数据结合在一起,形成一个统一的架构,但存在重复计算和开发资源双倍消耗的问题。随着Kafka的出现,Kappa架构提出了流批一体的概念,支持多个视图版本,解决了Lambda架构的缺点,标志着大数据处理进入了一个新的阶段。Kappa架构利用了Kafka的特点,提出了放弃批处理层,转而在实时处理层提供多个程序版本的思路,成为大数据处理进化的主要方向。这篇文章对于想要了解大数据处理技术发展趋势的读者具有重要参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》,新⼈⾸单¥59
《大数据经典论文解读》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(8)
- 最新
- 精选
- 在路上徐老师好,在分布式系统中恰好一次的语义需要两阶段提交的支持,通过协调者记录正在处理哪一条数据,等各个节点确认数据可以被处理之后,在应用处理方案。这个方式最大的问题就是延迟高。如果还需要保持数据处理顺序的话,后面的数据还要排队,吞吐量也受到严重影响。2021-12-106
- 雨~雨~雨kafka的exactly once的实现,依赖于生产和消费两方面的幂等实现。具体方法有很多,可以依赖kafka自己的消息唯一id,可以自己对consumer的消费逻辑做幂等改造。2022-04-204
- 陈迪至少一次+消费幂等=正好一次。最最基本的分布式系统模型下,一方请求一方响应,请求方没有收到响应,无法分辨请求是否被处理,只能再发,即至少一次2022-01-1114
- CRT我自己实现的正好一次,就是在客户端保证的,只能说性能不好保证,而且要用到redis保存已经消费的消息。2022-01-062
- 二进制傻瓜说的是老版本的kafka吧,新版本kafka消费者不依赖zk2021-12-1012
- Eternal首先:消费端,偏移量提交通过自己控制 然后:业务逻辑加上幂等处理 表现为恰好处理了一次2023-04-07归属地:重庆
- Helioskappa架构如果新的storm重放的时候能够保证是正好一次么2022-01-06
- JialinKafka 的 Exactly Once 机制可以依赖消费者实现:消费者处理程序保证消息的幂等性(比如说依赖数据库的唯一键或者消息本身的唯一性标示)2021-12-11
收起评论