极客时间-轻松学习，高效学习-极客邦

JohnT3e

2019-06-10

文章中的几篇论文地址：
0. MapReduce: https://research.google.com/archive/map reduce-osdi04.pdf
1. Flumejava: https://research.google.com/pubs/archive/35650.pdf
2. MillWheel: https://research.google.com/pubs/archive/41378.pdf
3. Data flow Model: https://www.vldb.org/pvldb/vol8/p1792-Akidau.pdf

个人认为还是应该读一读的，毕竟几十年的发展不能靠看一两篇文章就搞清楚的

展开

作者回复: 👍



 41
渡码

2019-06-14

我举一个前端技术变迁的例子，移动端开发最早分android和iOS分别开发，往往相同逻辑要不同团队开发两次，成本大且重复。后来出现h5 ，但h5性能不行。再后来fb推react native，在原生开发之上加了一层bridge，上层提供统一接口，下层分平台调用，这解决了h5的性能问题，但应用大了以后上层与原生层通信又是影响性能的瓶颈。后来谷歌推出了flutter 直接编译成不同平台运行代码，减少了中间通信过程，有点beam的意思。看来谷歌挺热衷于干这事

作者回复: 谢谢分享！这个例子我觉得非常棒！



 18
coder

2019-06-11

感觉MapReduce、FlumeJava、Spark等这些框架的思想跟目前在ML领域大火的tensorflow类似。TensorFlow是把数据抽象成Tensor，有一系列对它的操作，conv、pooling等，dnn模型在框架内部的表示也是图的形式，计算图，节点表示计算，边表示tensor，通过在计算图上做调度和优化，转换成比较高效的计算图。再通过stream executor映射到具体的计算平台上，e.g. TPU，GPU等，操作会转换成库调用或者通过xla编译器转换成hlo IR，再经过一系列的优化，最终转换成具体硬件平台的指令。总之，这些框架背后的思想挺类似的

作者回复: 谢谢你的留言！非常好的总结！



 5
morgan

2019-06-11

您好，beam和spark是什么关系呢？

作者回复: 谢谢提问！Spark可以作为Beam的一个底层Runner来运行通过Beam SDK所编写的数据处理逻辑。我觉得在读完第23讲中所讲述的Beam生态圈后，你会对这个概念有一个更好的认识。



 3
CoderLean

2019-07-05

一直有个疑问，既然StructedStreaming已经实现了流批一致的API，为什么还要学Beam

 1

 2
住羽光

2019-07-28

请问老师，是如何了解这些大数据处理框架的历史呢？，老师自己，有什么查找资料的好方法吗？

作者回复: 谢谢你的提问！这个要靠平时多看看论文和听听大数据处理的Summit，当然其中也有和其他工程师交流知道的信息。



 1
linuxfans

2019-06-16

如蔡老师所说，任何新技术都要了解来龙去脉，尤其是如何解决当前问题的。但实际上操作起来，尤其在国内，我们是无法在网上找到线索或者文章分析新技术的动机和理念的，通常就是直接告诉你，我这个技术多好，可往往未必适合自己的场景，这个如何破？



 1
Milittle

2019-06-24

onnx走的路子和beam一致呀

作者回复: 谢谢分享啊！



