复习课（八）| Resilient Distributed Datasets

黄金

你好，我是黄金。今天我们要来一起回顾复习的论文内容，是开源系统 Spark 的这篇引入了 RDD 概念的论文。
RDD 介绍RDD 的全称是弹性分布式数据集，它允许开发人员在大规模集群上，以容错的方式执行内存计算。而 Spark 就是实现了 RDD 的分布式计算框架。
在 Spark 出现之前，并没有通用的分布式计算框架，可以高效地运行迭代算法。MapReduce 是通用的分布式计算框架，但不管是 Mapper 任务还是 Reducer 任务，它们的执行结果都需要写入硬盘。这样一来，由多个 MapReduce 组合而成的迭代算法程序，运行起来就不够高效。因此，如何有效地利用分布式内存，就成为了研究的重点。
而在 MapReduce 之后，也出现了一些可以利用分布式内存的计算框架，它们把运算的中间结果保存在内存当中。这些计算框架确实提升了执行效率，但是不够通用，只能服务于特定的算法。
直到 Spark 的出现，才有了既高效又通用的分布式内存计算框架。
容错的分布式内存数据集在设计 RDD 的时候，主要的挑战就是如何定义编程接口，才能让 RDD 具备有效的故障恢复能力。
我们先来看看 MapReduce 的结果集是如何容错的。Mapper 任务把执行结果写入本地文件，服务器即使宕机，重启后依然可以读取结果。对于不能恢复的服务器，只需要把它负责的任务交给其他服务器，重新执行一遍即可。而 Reducer 任务是把执行结果写入 HDFS，由 HDFS 提供容错支持。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Spark的RDD概念引入了弹性分布式数据集的概念，允许在大规模集群上以容错的方式执行内存计算。相比于MapReduce等框架，Spark的RDD实现了高效且通用的分布式内存计算框架。RDD通过利用上游的RDD重新执行任务来生成丢失的数据，支持粗粒度的更新操作，使得数据恢复变得容易。Spark为RDD提供了转换操作和行动操作的编程接口，使用惰性求值构建拓扑图。文章还介绍了RDD之间的窄依赖和宽依赖，以及对比了Spark在性能表现上的优势。总的来说，RDD的弹性体现在数据存储、数据输出选择以及故障恢复上，为分布式计算提供了高效、容错的解决方案。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据经典论文解读》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论