极客时间-轻松学习，高效学习-极客邦

Michael 🛡YZY

2019-06-08

学到了。刚接触，对一次性处理语义的概念和背后的含义不太明确，能否结合实例讲解比较一下…

作者回复: 举个例子，如果我们使用Kafka计算某网页的PV——我们将每次网页访问都作为一个消息发送的Kafka。PV的计算就是我们统计Kafka总共接收了多少条这样的消息即可。精确一次处理语义表示每次网页访问都会产生且只会产生一条消息，否则有可能产生多条消息或压根不产生消息。



 35
梁亮

2019-06-08

推荐大家去搜索一个Confluence的演讲，题目是ETL is dead，其中讲到了Kafka在流处理平台的来龙去脉

 3

 25
October

2019-06-17

对于kafka streams相对于其他大数据流式计算框架的优势的第一点不是特别理解。spark或者flink读取消息之后再写回kafka，可能会导致多次写入kafka，老师能不能解释一下什么情况下会多次写入kafka？

作者回复: 不用拿Flink或Spark举例。我们就说一个普通的producer程序：producer需要接收到broker发送的response才能认为发送成功，如果response在传输过程中因为网络抖动丢失了或超时了（这种情况非常常见）而broker实际上已经写入了该消息，那么producer就会认为发送失败从而尝试重新发送，这就可能造成同一条消息被发送了多次。

 1

 19
清晨吼于林

2019-06-12

老师您好~~~
我了解的：一个partition在一个group内，只能被一个消息者进程消费（一个jvm，启动了一个java进程）。
问题前提：经过分区算法的匹配，A partition 被 B 消费者消费。
我的问题：在这个B的消费者里面，假如我用多线程消费（多个线程，每个线程维护了一个KafkaConsumer实例。而不是一个KafkaConsumer然后多个worker线程消费的模式），那这多个线程都能从这个A partition里面取到消息嘛？

作者回复: 同一个组下有多少消费者实例不是看进程数或线程数，而是看创建的KafkaConsumer实例数。所以在你的场景中，B消费者不是一个，而是多个，因为B进程启动了多个线程，而每个线程都维护了单独的KafkaConsumer实例。



 9
DarKnight

2019-06-27

胡老师您好！我对于第一点优势那个例子不是很懂，但又很感兴趣。我能否用一个这样的情形去理解呢：

我在spark内部consume了一条数据并要进行有状态的计算，我可以通过roll back确保做到exactly once，当状态计算过程中可以通过捕捉exception从而roll back到初始状态，但状态计算过程中我可能已经将某些结果发送到kafka了（这些结果我并不想重复发送），虽然我可以roll back所有处于spark内部的数据状态，但发送到kafka的所有数据就已经收不回了。

不知道这个例子算不算一种解读呢？谢谢！

展开

作者回复: 嗯嗯，在Spark看来，写入Kafka是一种side effect，它无法控制。所以它无法实现端到端的EOS。Flink 1.4借助了Kafka提供的事务机制来保证E2E EOS，但是没听说Spark也做了这样的改进。



 5
平叔叔

2019-09-22

在这样的需求之下，搭建重量级的完整性平台实在是“杀鸡焉用牛刀，的意思中小企业使用Kafka 不用配套提供集群调度、弹性部署？

作者回复: 你不要搭建多套这样重量级的系统，只需要一套Kafka集群就可以。并不是说Kafka集群不需要运维管理



 2
godtrue

2019-08-11

课前思考
kafka除了可以作为一个消息引擎系统，还能用来干什么？这个还真不太清楚，它的核心功能不就是，将消息倒一道手嘛？
课后思考
1：kafka可以作为什么来使用？
1-1：一个分布式消息引擎系统——广泛使用
1-2：一个分布式流处理平台，可以和Storm/Spark/Flink相媲美——越来越多这么玩，根据老师的评论回复，感觉kafka更是一个分布式流处理库。
1-3：一个分布式存储系统——很少使用，关键增删改查的效率好不？如果挺好，也可以这么玩吧！

如果我是kafka的掌舵人，我会逐渐丰富kafka的生态圈，把kafka弄得和Spring全家桶类似，以后的ABC把kafka家族的程员作为标配。

2：啥是流处理？
是指实时处理无限数据集的数据的一种处理方式嘛？
3：啥是批处理？
是指一次处理一批数据，且此数据的集合是有限的？
4：流处理和批处理，没理解，kafka作为分布式流处理平台的优势也没理解？看评论，流处理的数据集是无限数据集，那岂不是永远处理不完，直到天荒地老？
5：数据正确性不足是什么意思？会丢数据？没明白和数据收集的方式的逻辑是什么？

计算机我的理解，就是处理数据的，处理数据无非是针对数据的存储转发增删改查存分析统计，然后就是挖空心思加快速度。
感觉不该如此难以理解😊，一图胜千言，希望后面看到老师有图有真相。

展开

作者回复: 嗯嗯，记下了您的建议



 2
东方奇骥

2019-06-16

老师，请问一下，kafka相比于rabbitmq和activemq作为消息引擎系统的优势是什么呢。就是文中所说的消息正确性吗？

作者回复: 如果和rabbitmq和activemq相比，Kafka还是以消息引擎的角色。目前Kafka消息引擎单方面只能提供at least once处理语义，无法实现精确一次的消息交付语义。

另外，正确性一般用在数据计算领域。在消息引擎中我们更多的是谈它的消息交付语义（message delivery semantics）



 2
霄嵩

2019-06-11

老师写的很用心，加油！



 2
燕子上

2019-06-09

还是那句话：Apache Kafka 是消息引擎系统，也是一个分布式流处理平台！主：消息引擎，辅：流处理



 2
赵鹏举

2019-07-09

夕哥的英文非常标准，听着语音很舒服



 1
武塘

2019-06-24

请教下kafka和camel在流处理上的实际区别。理论上来说，kafka是一个有着一定流处理能力的消息引擎，camel是一个ETL的framework，但实际应用在结合一个消息引擎比如ActiveMQ也可以实现流处理，当然这里也可以采用Kafka做消息引擎。我的迷惑是有了kafka，在工程应用中是否可以完全取代camel，还是它们还是有自己适用的不同场景呢？

作者回复: 对Camel不是特别熟悉，但我不认为这两者构成竞争关系。Camel有一些独到之处是Kafka没有的，至少它能汇聚各个中间件的消息，另外它也支持复杂的消息路由。就像Camel宣称的那样，它是一款企业级的数据整合方案。在设计立意上，我感觉要比Kafka的层次要高。



 1
EricJones

2019-06-22

我又仔细意会了一下，流处理大概已经懂了，但是批处理的正确性到底体现在哪里。还是不知道。

作者回复: 假设我们统计单词计数。如果不出现问题，对于相同的有限输入（bounded dataset）批处理是不是总是能够得到相同的输出？



 1
EricJones

2019-06-22

学到了，消息引擎系统、分布式流处理平台。
kafka 流处理平台具有的优势：正确性，精确一次处理语义。对流式计算的定位。
理解了精确一次处理语义，但是没get到这其中的点。为什么说正确性是批处理的强项。一批消息传给服务器A，A进行处理然后B服务器从A获取这批消息。这个过程不也是有可能出现消息获取失败，需要第二次去获取吗？该怎么理解框架内流处理与端与端？有大佬可以解释下吗？谢谢

作者回复: 每次执行批处理都能保证得到相同的值，但是流处理无法做到这一点。批处理一般采用fail-fast来保证即使中间出现错误也能实现正确性



 1
JoeyLi666

2019-06-19

flink支持kafka的端到端 exactly once,不过有一定局限性

作者回复: 最近Flink Kafka Connector正式移除了Beta标签【Flink-12806】，应该会更加稳定了吧：）



 1
October

2019-06-17

看到老师评论区的回复有个问题，kafka目前到底能否实现exactly once的处理语义？

作者回复: hmm...... 社区的确是宣称Kafka Streams可以做到EOS。但我个人的看法是：目前市面宣称做到EOS这件事更多的还是marketing，即营销的一种手段。我不觉得有哪个流处理框架100%地实现了EOS，否则如果流处理真的实现了正确性，同时还提供低延时，批处理为什么还活着呢？当然这是我一家之言了哈。至少从技术的角度探讨，Kafka Streams是能做到EOS的。

 1

 1
Bitson

2019-06-16

请问confluence kafka要收费的吗，有没有免费版的？

作者回复: 有。Confluent Kafka目前也分社区版和商业版本，前者是免费的



 1
Shane

2019-06-15

老师，能举个例子说明下流出来和批处理的区别吗？
目前我的理解就是批处理是一次请求中包含多条消息？然后消费者取出这一整个请求内容进行处理消费。流处理就是每个请求每次只发送一条消息，所以消费者也只能每次消费一条？

感觉自己理解的应该不怎么正确呢？网络上的解释也是非常虚，想看看老师有啥指导的吗？

作者回复: 流处理和批处理的区别是前者主要用于处理无限数据集（unbound data set）



 1
demmm

2019-06-13

消息引擎系统，也是一个分布式流处理平台

想问下这两个概念到底有什么区别呢

作者回复: 严格来说这两个是完全不同领域内的东西。各自都有响当当的理论、框架。



 1
趙衍

2019-06-12

关于【但是计算结果有可能多次写入到 Kafka，因为它们不能控制 Kafka的语义处理】。我想问老师，Kafka不是在0.11版本实现了exactly once，保证一条消息只会被消费一次吗，为什么说计算结果还有可能会被多次写入到Kafka呢？

作者回复: 嗯嗯，这说的就是0.11之前的故事。事实上，Apache Flink从1.4开始推出了支持E2E Exactly-Once语义的两阶段SinkFunction。它用的就是Kafka 0.11的事务



 1