极客时间-轻松学习，高效学习-极客邦

aof

2019-06-05

老师能详细解释一下这句话吗？
“由于相同的原因，Spark 只支持基于时间的窗口操作（处理时间或者事件时间），而 Flink 支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口，开发者可以自由定义想要的窗口操作。”

作者回复: 感谢提问。窗口是流数据处理中最重要的概念之一，窗口定义了如何把无边界数据划分为一个个有限的数据集。基于事件时间的窗口只是窗口的一种，它是按照事件时间的先后顺序来划分数据，比如说1:00-1:10是一个集合，1:10-1:20又是一个集合。

但是窗口并不都是基于时间的。比如说我们可以按数据的个数来划分，每接受到10个数据就是一个集合，这就是Count-based Window（基于数量的窗口）。Flink对于窗口的支持远比Spark要好，这是它相比Spark最大的优点之一。它不仅支持基于时间的窗口（处理时间、事件时间和摄入时间），还支持基于数据数量的窗口。

此外，在窗口的形式上，Flink支持滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）、全局窗口（Global Window）和会话窗口（Session Windows）。

 1

 8
cricket1981

2019-06-05

spark根据算子依赖类型将计算过程划分成多个stage，只有上一个stage全部完成才能进入下一个stage，而flink无此限制。



 4
江中芦苇

2019-07-29

本文例子加了时间窗口，不是对一段时间的数据进行计算吗？应该算批处理的例子吧



 1
淹死的大虾

2019-06-26

Spark多数据源的join实时处理不如Flink；Spark处理多数据源时，如果有数据源时间间隔超过watermark就没法inner-join了



 1
se7en

2019-06-11

Flink有环数据流和用流思想做到批的思想，这两个地方我没懂，老师，你能详细说说么



 1
大牛凯

2019-08-16

老师好，请问大多数机器学习算法是有环数据这是啥意思啊？是说每个优化迭代之间是环的么？

作者回复: 是指做的预测可以重新作为下一个迭代的训练数据




Geek_88b596

2019-06-27

我们知道flink的特点是支持在计算流做到exactly once，想问下老师spark支持这样特性吗？不支持的话是不是代表特殊场景下的结果是不准确的也就是说不确定的



