作者回复: 👍🏻
作者回复: 如果限定为单机处理,我觉得你的第二个思路是可行的,第一个行不通。
作者回复: 这位同学的理解很准确
作者回复: 这位同学的理解是很准确的
作者回复: 理解的很对
作者回复: 并不是,checkpoint会将一些RDD的结果存入硬盘,但是不会保留依赖关系;缓存函数或者持久化处理会保留依赖关系,所以错误恢复会更方便。
作者回复: 👍🏻
作者回复: 👍🏻
作者回复: 这些机制对开发者并不是透明的,开发者可以手动调用checkpoint和cache方法来存储RDD。他们的主要区别是是否存储依赖关系。