• Geek_d4ccac
    2021-11-04
    老师好!有两个问题 1)括号里面的min,med,max是对什么取的极小,中数和极大。2)上一节设置了2 executor 每个3 GB memory, 为啥”peak memory total”会是18.8GB呢? 谢谢!

    作者回复: 1)task level的统计值哈~ 2)3G和18.8G,是两个完全不同的概念哈,3G是开发者的设定值,每个Executors内存大小为3G;但是18.8G,是集群范围内,单位时间内存消耗的累计值,这里面有个时间的概念。简言之,3G的设置,是静态的,而18.8G的内存消耗,是一个动态的概念,英文里面把这个叫做memory footprint,它代表了单位时间任务对于内存的消耗与需求

    共 4 条评论
    1
  • Geek_1e4b29
    2021-10-31
    一直对spill mem有点迷糊,假设有一份数据,按spark数据结构,在内存要100G,放磁盘要150G,如果executor是20G的话,忽略其他存储,spill memory以及spill disk大概是多少? 😂

    作者回复: 这种情况下,spill memory好算,大概其就是80G左右,说白了就是内存数据结构放不下因而溢出的数据,在内存中的存储大小。spill disk不好算,这要看实际80G数据落盘到磁盘到底有多大~ 另外,老弟的假设反了哈,通常来说,磁盘上的(带压缩)数据,都比内存中(Java object)的小~

    共 2 条评论
    
  • 小新
    2021-10-30
    请问原始数据在内存中展开之后的总大小,这句话怎么理解?

    作者回复: 就是如果把数据集在内存中存储、展开,所占用的内存总大小

    
    
  • kingcall
    2021-10-29
    我在把最后的结果show 出来的时候,为啥会提交两个job 呢? 下面是截图 https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/image-20211029160825553.png

    作者回复: 老弟,不妨回想一下take的工作原理,为什么有两个show(甚至是多个show),自然就清楚啦~

    共 2 条评论
    
  • Geek_3277ae
    2023-08-01 来自上海
    您好,shuffle read time时间过长是什么原因呢?是computing time的10-20倍左右
    
    