• Hobbin
    2019-05-24
    老师,Spark团队对Spark streaming更新越来越少,Spark streaming存在使用Processing time 而非 Event time,批流代码不统一等问题,而Structured streaming对这些都有一定改进。所以Structure streaming 会替代Spark streaming或者Flink,成为主流的流计算引擎吗?

    作者回复: 你说的很对,Structured streaming是Spark流处理的未来,所以我在第17讲以及之后的实战演练才重点介绍了它。此处介绍spark streaming一来是因为它的原理很基本也很重要,二来它承接了之前介绍的RDD API。

    所以我觉得Structured Streaming会替代Spark Streaming,但是很难替代Flink。Flink在流处理上的天然优势很难被Spark超越,让我们拭目以待Strucutred Streaming未来会如何发展。

     2
     19
  • hua168
    2019-05-24
    批处理可以选择spark;流处理:spark stream,storm,Flink;还有现在大统一的beam
    请问:这些技术都要学一遍吗?精力放在哪个技术上?
    如果我是初学者,我能直接学beam其它都不学吗?
     2
     13
  • 邱从贤※klion26
    2019-05-26
    上一条留言没有说完。
    spark streaming 需要设置 batch time 是多少,这决定时效性,以及调度的 overhead,另外要看自己需要的吞吐多大,并发是不是有特殊需求。
    spark streaming 有几个点不太喜欢,修改业务逻辑后,需要删除 checkpoint 才行,这会导致从头计算;慢节点没法解决,当一个 batch 里面有一个节点很难的时候,整个 batch 都无法完成。
    一个反常识的点:实时 etl 同样吞吐下,flink 比 spark streaming 更节省资源。
    另外官方已经放弃 spark streaming,转向structured streaming,但是从邮件列表看又没有 commiter 在管,导致 pr 没人 review,或许这和 spark 整体的重心或者方向有关吧
    展开
    
     5
  • lwenbin
    2019-05-24
    没用过spark streaming, 用storm比较多。
    觉得流处理关键在于要在窗口内尽快地把到来的数据处理完,不要造成数据堆积,内存溢出。
    其中牵涉到了如何高效地接受数据,如何并行尽快地处理数据。
    觉得优化可以从:接受输入,处理算法,处理单元数量,GC调优等方面入手吧。
    有个问题,对于RDD如果transform链很长,感觉是否会对性能造成一定影响,特别是流式或者图形计算?老师能否解答一下。
    谢谢!
    展开

    作者回复: 如果transform链很长,在流处理中确实会影响处理的实时性,你的想法是对的。如果只有一条很长的链,在Spark的框架中,也很难去优化。

     1
     5
  • Ming
    2019-05-24
    优化的定义很广,不知道在这个领域大家提到这个词主要指的是什么?望解答

    不过,对具体实现细节不了解的情况下有几个猜测:
    我会改变时间粒度,来减少RDD本身带来的开销,上文的例子里时间粒度如果设置成10秒应该逻辑上也是可行的。
    另外,我大概会考虑多使用persist来减少因为窗口滑动产生的重复计算。
    
     3
  • 王翔宇🍼
    2019-07-12
    sc和ssc的区别是什么?我理解ssc才是那个streamingContext吧,如果是这样,那么又出现错误了。
    
    
  • 渡码
    2019-05-28
    稳定性:对于7*24小时的流式任务至关重要
    低延迟高吞吐量
    
    
  • 邱从贤※klion26
    2019-05-26
    spark streaming 批次的大小设置多少合适,从官方宣传来看已经被 structure steeaming 替代。
    
    
我们在线,来聊聊吧