大规模数据处理实战

“

为什么传统算法不再奏效？为什么要去借助抽象的数据处理描述语言？希望在后面的学习过程中，你能一直带着这些问题出发。”

来自：03 | 大规模数据处理初体验：怎样实现大型电商热销榜？

4 人划过

“

在 Spark 2.3 中，流与流的 Join（Stream-stream join）被正式支持。这样的 Join 难点就在于，在任意一个时刻，流数据都不是完整的，流 A 中后面还没到的数据有可能要和流 B 中已经有的数据 Join 起来再输出。为了解决这个问题，我们就要引入”

来自：20 | 流处理案例实战：分析纽约市出租车载客信息

3 人划过

“

数据处理描述语言部分完全可以和后面的运算引擎分离了。有向图可以作为数据处理描述语言和运算引擎的前后端分离协议。”

来自：02 | MapReduce后谁主沉浮：怎样设计下一代数据处理技术？

3 人划过

“

同时，每一个数据都是有两种时域的，分别是事件时间和处理时间。我们在处理无边界数据的时候，因为在现实世界中，数据会有延时、丢失等等的状况发生，我们无法保证现在到底是否接收完了所有发生在某一时刻之前的数据。所以现实中，流处理必须在数据的完整性和数据处理的延时性上作出取舍。Beam 编程模型就是在这样的基础上提出的。”

来自：23 | 站在Google的肩膀上学习Beam编程模型

3 人划过

*精彩内容为该课程各文章中划线次数最多的内容

免费试读

讲师

蔡元楠

硅谷资深工程师

蔡元楠，硅谷资深工程师，工作领域为 AI Healthcare（人工智能的健康医疗应用），领导并开发超大规模数据驱动的全新 AI 应用与商业模式。他分别于哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位，并曾于哈佛医学院执行官项目学习。