极客时间-轻松学习，高效学习-极客邦

Hobbin

2019-05-24

老师，Spark团队对Spark streaming更新越来越少，Spark streaming存在使用Processing time 而非 Event time，批流代码不统一等问题，而Structured streaming对这些都有一定改进。所以Structure streaming 会替代Spark streaming或者Flink，成为主流的流计算引擎吗？

作者回复: 你说的很对，Structured streaming是Spark流处理的未来，所以我在第17讲以及之后的实战演练才重点介绍了它。此处介绍spark streaming一来是因为它的原理很基本也很重要，二来它承接了之前介绍的RDD API。

所以我觉得Structured Streaming会替代Spark Streaming，但是很难替代Flink。Flink在流处理上的天然优势很难被Spark超越，让我们拭目以待Strucutred Streaming未来会如何发展。

 2

 19
hua168

2019-05-24

批处理可以选择spark；流处理：spark stream，storm，Flink；还有现在大统一的beam
请问：这些技术都要学一遍吗？精力放在哪个技术上？
如果我是初学者，我能直接学beam其它都不学吗？

 2

 13
邱从贤※klion26

2019-05-26

上一条留言没有说完。
spark streaming 需要设置 batch time 是多少，这决定时效性，以及调度的 overhead，另外要看自己需要的吞吐多大，并发是不是有特殊需求。
spark streaming 有几个点不太喜欢，修改业务逻辑后，需要删除 checkpoint 才行，这会导致从头计算；慢节点没法解决，当一个 batch 里面有一个节点很难的时候，整个 batch 都无法完成。
一个反常识的点：实时 etl 同样吞吐下，flink 比 spark streaming 更节省资源。
另外官方已经放弃 spark streaming，转向structured streaming，但是从邮件列表看又没有 commiter 在管，导致 pr 没人 review，或许这和 spark 整体的重心或者方向有关吧

展开



 5
lwenbin

2019-05-24

没用过spark streaming, 用storm比较多。
觉得流处理关键在于要在窗口内尽快地把到来的数据处理完，不要造成数据堆积，内存溢出。
其中牵涉到了如何高效地接受数据，如何并行尽快地处理数据。
觉得优化可以从：接受输入，处理算法，处理单元数量，GC调优等方面入手吧。
有个问题，对于RDD如果transform链很长，感觉是否会对性能造成一定影响，特别是流式或者图形计算？老师能否解答一下。
谢谢！

展开

作者回复: 如果transform链很长，在流处理中确实会影响处理的实时性，你的想法是对的。如果只有一条很长的链，在Spark的框架中，也很难去优化。

 1

 5
Ming

2019-05-24

优化的定义很广，不知道在这个领域大家提到这个词主要指的是什么？望解答

不过，对具体实现细节不了解的情况下有几个猜测：
我会改变时间粒度，来减少RDD本身带来的开销，上文的例子里时间粒度如果设置成10秒应该逻辑上也是可行的。
另外，我大概会考虑多使用persist来减少因为窗口滑动产生的重复计算。



 3
王翔宇🍼

2019-07-12

sc和ssc的区别是什么？我理解ssc才是那个streamingContext吧，如果是这样，那么又出现错误了。




渡码

2019-05-28

稳定性：对于7*24小时的流式任务至关重要
低延迟高吞吐量




邱从贤※klion26

2019-05-26

spark streaming 批次的大小设置多少合适，从官方宣传来看已经被 structure steeaming 替代。



