极客时间-轻松学习，高效学习-极客邦

Geek_d4ccac
2021-11-04
老师好！有两个问题 1）括号里面的min，med，max是对什么取的极小，中数和极大。2）上一节设置了2 executor 每个3 GB memory，为啥”peak memory total”会是18.8GB呢？谢谢！
作者回复: 1）task level的统计值哈~ 2）3G和18.8G，是两个完全不同的概念哈，3G是开发者的设定值，每个Executors内存大小为3G；但是18.8G，是集群范围内，单位时间内存消耗的累计值，这里面有个时间的概念。简言之，3G的设置，是静态的，而18.8G的内存消耗，是一个动态的概念，英文里面把这个叫做memory footprint，它代表了单位时间任务对于内存的消耗与需求
共 4 条评论
1
Geek_1e4b29
2021-10-31
一直对spill mem有点迷糊，假设有一份数据，按spark数据结构，在内存要100G，放磁盘要150G，如果executor是20G的话，忽略其他存储，spill memory以及spill disk大概是多少? 😂
作者回复: 这种情况下，spill memory好算，大概其就是80G左右，说白了就是内存数据结构放不下因而溢出的数据，在内存中的存储大小。spill disk不好算，这要看实际80G数据落盘到磁盘到底有多大~ 另外，老弟的假设反了哈，通常来说，磁盘上的（带压缩）数据，都比内存中（Java object）的小~
共 2 条评论
小新
2021-10-30
请问原始数据在内存中展开之后的总大小，这句话怎么理解？
作者回复: 就是如果把数据集在内存中存储、展开，所占用的内存总大小
kingcall
2021-10-29
我在把最后的结果show 出来的时候，为啥会提交两个job 呢？下面是截图 https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/image-20211029160825553.png
作者回复: 老弟，不妨回想一下take的工作原理，为什么有两个show（甚至是多个show），自然就清楚啦~
共 2 条评论
Geek_3277ae
2023-08-01 来自上海
您好，shuffle read time时间过长是什么原因呢？是computing time的10-20倍左右