作者回复: 你说的很准确!点赞
作者回复: 不保存计算结果指的是不写入硬盘。像MapReduce中每一步中间计算结果都要写入HDFS。新的RDD是上一步RDD计算的结果,但是并没有立刻进行计算,看过下一讲就明白了,只有碰到action操作才会开始执行,而且如果没有进行特别的缓存或者持久化操作,结果只在内存中,没有被写入硬盘,所以说不保存结果。
作者回复: 你好,在第21讲我会带大家比较Spark和Flink。
作者回复: 不对,Spark的中间计算结果如果没有特别指定持久化到硬盘,都会存在内存里以方便下一次调用,这也是它运行速度比MapReduce快的主要原因。
作者回复: 建议看一下高赞的回答,那位同学的理解要更加全面
作者回复: 说的对。查阅paper是一个很好的学习方法,给你点赞。
作者回复: HDFS我认为并没有过时,现在大部分分布式计算引擎还是与HDFS存储的数据进行交互。分布式存储系统有很多比如Amazon的Dynamo DB,Facebook曾经用的HBase等等。开源的话我没有用过很多,ceph听说还不错。