• 常超
    2019-06-19
    1.ParDo支持数据输出到多个PCollection,而Spark和MapReduce的map可以说是单线的。
    2.ParDo提供内建的状态存储机制,而Spark和MapReduce没有(Spark Streaming有mapWithState )。

    作者回复: 不错的总结!

    
     6
  • sxpujs
    2019-06-20
    Spark的算子和函数非常方便和灵活,这种通用的DoFn反而很别扭。
    
     5
  • vigo
    2019-10-11
    推荐python,然而这章又几乎全是java事例
    
     1
  • 大牛凯
    2019-08-22
    ParDo是不是跟map一个意思?

    作者回复: 不是。map是一个input一个output,map是一个input可以有0个或者多个output

    
    
  • 王蒙
    2019-07-20
    ParDo 有点自定义 UDX 的意思,而 Spark 或 Flink 除了支持 UDX,还内置很多常用的算子

    作者回复: 谢谢你的留言!其实Beam也有非常多内置的常用Transform。

    
    
  • W.T
    2019-06-19
    Statefullness、side input/side output相关的例子可以再多一点。
    
    
  • cricket1981
    2019-06-19
    ParDo能指定并行度吗?

    作者回复: 谢谢你的提问!ParDo的level好像是不行的,如果对于整个数据流水线来说的话,可以指定numWorkers。

    
    
我们在线,来聊聊吧