作者回复: 不太对哈~ 标准答案是: 第一个:每个rdd经过处理后,又可能生成其他rdd,这里的tasks显示的是整个executors处理过的任务数,跟rdd cache的blocks无关。 第二个:因为代码最后一个是save,而save的mode是overwrite,save本身会有一个action,而overwrite的过程,实际上是先在临时文件夹生成数据,然后再move到目标文件夹,有一个数据移动的动作,所以Spark也把它算做了一个Action。
作者回复: Storage页面是用来显示分布式数据集缓存的,比如RDD Cache、DataFrame Cache,等等。 Hive on Spark的集成中,Spark与MapReduce、Tez都是同等的地位,都是执行引擎,而且一般Hive SQL中,并不存在分布式数据集缓存的概念,所以Storage面板空空如也倒是也不足为怪~
作者回复: 哈哈,老弟喜欢就好~
作者回复: 有的,不过这个限制,不是在Spark层面做的。一般在工业级,Spark一般都是用YARN来调度,YARN里面可以设置资源队列,每个队列内部,可以限制可用资源总量,不同类型的作业,比如批处理、流计算,往往是会单独创建队列来服务。所以回答你的问题,可以让运营团队设置不同的资源队列,从而达到资源隔离的目的~
作者回复: 听上去不太对,你可以加我微信,把代码和截图发给我,咱们一起看看。微信搜索“方块K”或是“rJunior”
作者回复: 是的~
作者回复: 运行的时候Spark UI看8080端口;运行结束之后,在开启History server的情况下,看18080端口~
作者回复: 是的,不同页面的统计维度不同,拿Executors页面为例,它的统计维度是Executors,相当于把其他维度(比如Jobs、Stages)就都抹掉了
作者回复: 哈哈
作者回复: 哈哈,绝对沙发~🛋️