• 陈
    2019-07-10
    老师,窗口的跨度能多大,比如我想计算每天用户访问量?

    作者回复: 谢谢你的留言!窗口理论是可以无限大的,如果你想计算每天用户访问量比较直观的做法就是设置一个窗口时长为24小时的固定窗口。

    
     2
  • 三水
    2019-07-10
    老师,现在使用 Beam 模型的项目中,使用 Python 语言的多吗?如果用 Python 语言的话,Beam 除了Google的 云 Pub/Sub,还不支持 Kafka 类似的,Built-in I/O Transform 也太少了,这些都需要自己实现吗?

    作者回复: 谢谢你的提问!其实Beam对于python的支撑确实没有Java的多。在没有原生支持的情况下是需要自己实现。我知道python对于KafkaIO现在有Work in process的。

    
     1
  • Ming
    2019-07-10
    假如要给一个流处理的pipeline更换计算逻辑的话,在Beam层上要做相应处理吗?还是完全由底层的实现来处理的?

    Beam虽好,但是似乎,作为开发首当其冲的还是要熟练掌握一个底层计算框架。

    作者回复: 谢谢你的留言!你所说的pipeline更换计算逻辑是指应用层的逻辑还是底层实现的抽象方法?如果是底层实现的抽象方法,那还是要由底层来实现的。

    
    
  • JohnT3e
    2019-07-10
    无界数据中窗口的时间跨度的选择是否可以从下面这些方面考虑:
    1. 业务实时性要求
    2. 数据量
    比如文章中的统计一个月的高频词和某一周的,那么可以选择窗口长度为一周的固定窗口(常用英文单词是有限的,且莎士比亚一周产出的文章数量也是比较有限的。同时也符合业务上的时间要求),后面再设置一个长度为一个月的窗口,将上一个输出的PCollection结果进行合并。
     1
    
我们在线,来聊聊吧