Hadoop MapReduce 简单粗暴地根据 shuffle 将大数据计算分成 Map 和 Reduce 两个阶段,然后就算完事了。而 Spark 更细腻一点,将前一个的 Reduce 和后一个的 Map 连接起来,当作一个阶段持续计算,形成一个更加优雅、高效的计算模型,虽然其本质依然是 Map 和 Reduce。但是这种多个计算阶段依赖执行的方案可以有效减少对 HDFS 的访问,减少作业的调度执行次数,因此执行速度也更快
来自:13 | 同样的本质,为何Spark可以更高效?
12 人划过
我们常常意识不到问题的存在,直到有人解决了这些问题。
来自:12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
10 人划过
我们从 Hadoop 中可以学到大数据领域的一个架构模式,也就是集中管理,分布存储与计算
来自:10 | 模块答疑:我们能从Hadoop学到什么?
9 人划过
依赖倒转原则”,依赖倒转原则是高层模块不能依赖低层模块,它们应该共同依赖一个抽象,这个抽象由高层模块定义,由低层模块实现。
来自:09 | 为什么我们管Yarn叫作资源调度框架?
8 人划过
RAID 可以看作是一种垂直伸缩,一台计算机集成更多的磁盘实现数据更大规模、更安全可靠的存储以及更快的访问速度。而 HDFS 则是水平伸缩,通过添加更多的服务器实现数据更大、更快、更安全存储与访问。
来自:05 | 从RAID看垂直伸缩到水平伸缩的演化
8 人划过
将程序分发到数据所在的地方进行计算,也就是所谓的移动计算比移动数据更划算。
来自:04 | 移动计算比移动数据更划算
8 人划过
map 输出的时候进行标记,比如来自第一张表的输出 Value 就记录为 <1, X>,这里的 1 表示数据来自第一张表。这样经过 shuffle 以后,相同的 Key 被输入到同一个 reduce 函数,就可以根据表的标记对 Value 数据求笛卡尔积,用第一张表的每条记录和第二张表的每条记录连接,输出就是 join 的结果。
来自:11 | Hive是如何让MapReduce实现SQL操作的?
7 人划过
Hadoop、Storm 的设计理念,其实是一样的,就是把和具体业务逻辑无关的东西抽离出来,形成一个框架,比如大数据的分片处理、数据的流转、任务的部署与执行等,开发者只需要按照框架的约束,开发业务逻辑代码,提交给框架执行就可以了。
来自:15 | 流式计算的代表:Storm、Flink、Spark Streaming
5 人划过
顶尖的公司和顶尖的高手一样,做事有一种优雅的美感。你可以看 Google 一路走来,从搜索引擎、Gmail、地图、Android、无人驾驶,每一步都将人类的技术边界推向更高的高度。而差一点的公司即使也曾经获得过显赫的地位,但是一旦失去做事的美感和节奏感,在这个快速变革的时代,陨落得比流星还快。
来自:预习 02 | 大数据应用发展史:从搜索引擎到人工智能
3 人划过
3. 统一服务:资源管理用 Yarn,安全管理用 Sentry 和 RecordService 细粒度地管理不同用户数据的访问权限。
来自:29 | 盘点可供中小企业参考的商业大数据平台
3 人划过
*精彩内容为该课程各文章中划线次数最多的内容
编辑推荐
讲师的其他课程
包含这门课的学习路径
架构师
28门课程 151.9w人学习
看过的人还看了