从 0 开始学大数据

“

Hadoop MapReduce 简单粗暴地根据 shuffle 将大数据计算分成 Map 和 Reduce 两个阶段，然后就算完事了。而 Spark 更细腻一点，将前一个的 Reduce 和后一个的 Map 连接起来，当作一个阶段持续计算，形成一个更加优雅、高效的计算模型，虽然其本质依然是 Map 和 Reduce。但是这种多个计算阶段依赖执行的方案可以有效减少对 HDFS 的访问，减少作业的调度执行次数，因此执行速度也更快”

来自：13 | 同样的本质，为何Spark可以更高效？

12 人划过

“

我们常常意识不到问题的存在，直到有人解决了这些问题。”

来自：12 | 我们并没有觉得MapReduce速度慢，直到Spark出现

10 人划过

“

我们从 Hadoop 中可以学到大数据领域的一个架构模式，也就是集中管理，分布存储与计算”

来自：10 | 模块答疑：我们能从Hadoop学到什么？

9 人划过

“

依赖倒转原则”，依赖倒转原则是高层模块不能依赖低层模块，它们应该共同依赖一个抽象，这个抽象由高层模块定义，由低层模块实现。”

来自：09 | 为什么我们管Yarn叫作资源调度框架？

8 人划过

“

RAID 可以看作是一种垂直伸缩，一台计算机集成更多的磁盘实现数据更大规模、更安全可靠的存储以及更快的访问速度。而 HDFS 则是水平伸缩，通过添加更多的服务器实现数据更大、更快、更安全存储与访问。”

来自：05 | 从RAID看垂直伸缩到水平伸缩的演化

8 人划过

“

将程序分发到数据所在的地方进行计算，也就是所谓的移动计算比移动数据更划算。”

来自：04 | 移动计算比移动数据更划算

8 人划过

“

map 输出的时候进行标记，比如来自第一张表的输出 Value 就记录为 <1, X>，这里的 1 表示数据来自第一张表。这样经过 shuffle 以后，相同的 Key 被输入到同一个 reduce 函数，就可以根据表的标记对 Value 数据求笛卡尔积，用第一张表的每条记录和第二张表的每条记录连接，输出就是 join 的结果。”

来自：11 | Hive是如何让MapReduce实现SQL操作的？

7 人划过

“

Hadoop、Storm 的设计理念，其实是一样的，就是把和具体业务逻辑无关的东西抽离出来，形成一个框架，比如大数据的分片处理、数据的流转、任务的部署与执行等，开发者只需要按照框架的约束，开发业务逻辑代码，提交给框架执行就可以了。”

来自：15 | 流式计算的代表：Storm、Flink、Spark Streaming

5 人划过

“

顶尖的公司和顶尖的高手一样，做事有一种优雅的美感。你可以看 Google 一路走来，从搜索引擎、Gmail、地图、Android、无人驾驶，每一步都将人类的技术边界推向更高的高度。而差一点的公司即使也曾经获得过显赫的地位，但是一旦失去做事的美感和节奏感，在这个快速变革的时代，陨落得比流星还快。”

来自：预习 02 | 大数据应用发展史：从搜索引擎到人工智能

3 人划过

“

3. 统一服务：资源管理用 Yarn，安全管理用 Sentry 和 RecordService 细粒度地管理不同用户数据的访问权限。”

来自：29 | 盘点可供中小企业参考的商业大数据平台

3 人划过

*精彩内容为该课程各文章中划线次数最多的内容

免费试读

讲师

李智慧

同程艺龙交通首席架构师，前 Intel 大数据架构师，《大型网站技术架构》作者

李智慧，极客时间专栏《后端技术面试 38 讲》作者，同程艺龙交通首席架构师、Apache Spark 代码贡献者，长期从事大数据、大型网站架构的研发工作，曾担任阿里巴巴技术专家、Intel 亚太研发中心架构师、宅米和 WiFi 万能钥匙 CTO，有超过 6 年的线下咨询、培训经验，著有...查看更多