作者回复: 👍🏻
作者回复: 引用楼下的评论回复
落叶飞逝的恋
总结:Spark的优点就是能够动态根据计算逻辑的复杂度进行不断的拆分子任务,而实现在一个应用中处理所有的逻辑,而不像MapReduce需要启动多个应用进行计算。
作者回复: 有些问题不一定要得到答案或者回答出来,只是关注到了思考一下,就会有收获~
作者回复: 每个任务一个进程
很多红色线条,每条线代表一个任务
cache理解成存储rdd的内存
作者回复: 1 Spark的map和reduce的划分要更优雅一点,比如宽依赖和窄依赖,编程上看不出明显的map和reduce,这种优雅还有很多,多写一些spark和MapReduce程序就能感受到。
2 如果内存够用,Spark几乎总是使用内存。
3 可以这么理解。
作者回复: 👍👍👍
作者回复: 数据分布删掉,谢谢指正。
作者回复: SQL的执行计划和spark的dag,都是执行描述,可以用文本查看的,不包括执行代码。
worker下载应用程序的jar包,反射加载执行。第三模块spark源码优化有详细描述。