• JohnT3e
    2019-06-10
    文章中的几篇论文地址:
    0. MapReduce: https://research.google.com/archive/map reduce-osdi04.pdf
    1. Flumejava: https://research.google.com/pubs/archive/35650.pdf
    2. MillWheel: https://research.google.com/pubs/archive/41378.pdf
    3. Data flow Model: https://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf

    个人认为还是应该读一读的,毕竟几十年的发展不能靠看一两篇文章就搞清楚的
    展开

    作者回复: 👍

    
     41
  • 渡码
    2019-06-14
    我举一个前端技术变迁的例子,移动端开发最早分android和iOS分别开发,往往相同逻辑要不同团队开发两次,成本大且重复。后来出现h5 ,但h5性能不行。再后来fb推react native,在原生开发之上加了一层bridge,上层提供统一接口,下层分平台调用,这解决了h5的性能问题,但应用大了以后上层与原生层通信又是影响性能的瓶颈。后来谷歌推出了flutter 直接编译成不同平台运行代码,减少了中间通信过程,有点beam的意思。看来谷歌挺热衷于干这事

    作者回复: 谢谢分享!这个例子我觉得非常棒!

    
     18
  • coder
    2019-06-11
    感觉MapReduce、FlumeJava、Spark等这些框架的思想跟目前在ML领域大火的tensorflow类似。TensorFlow是把数据抽象成Tensor,有一系列对它的操作,conv、pooling等,dnn模型在框架内部的表示也是图的形式,计算图,节点表示计算,边表示tensor,通过在计算图上做调度和优化,转换成比较高效的计算图。再通过stream executor映射到具体的计算平台上,e.g. TPU,GPU等,操作会转换成库调用或者通过xla编译器转换成hlo IR,再经过一系列的优化,最终转换成具体硬件平台的指令。总之,这些框架背后的思想挺类似的

    作者回复: 谢谢你的留言!非常好的总结!

    
     5
  • morgan
    2019-06-11
    您好,beam和spark是什么关系呢?

    作者回复: 谢谢提问!Spark可以作为Beam的一个底层Runner来运行通过Beam SDK所编写的数据处理逻辑。我觉得在读完第23讲中所讲述的Beam生态圈后,你会对这个概念有一个更好的认识。

    
     3
  • CoderLean
    2019-07-05
    一直有个疑问,既然StructedStreaming已经实现了流批一致的API,为什么还要学Beam
     1
     2
  • 住羽光
    2019-07-28
    请问老师,是如何了解这些大数据处理框架的历史呢?,老师自己,有什么查找资料的好方法吗?

    作者回复: 谢谢你的提问!这个要靠平时多看看论文和听听大数据处理的Summit,当然其中也有和其他工程师交流知道的信息。

    
     1
  • linuxfans
    2019-06-16
    如蔡老师所说,任何新技术都要了解来龙去脉,尤其是如何解决当前问题的。但实际上操作起来,尤其在国内,我们是无法在网上找到线索或者文章分析新技术的动机和理念的,通常就是直接告诉你,我这个技术多好,可往往未必适合自己的场景,这个如何破?
    
     1
  • Milittle
    2019-06-24
    onnx走的路子和beam一致呀

    作者回复: 谢谢分享啊!

    
    
我们在线,来聊聊吧