Spark 性能调优实战
一站式加速 Spark 作业执行性能
吴磊  前 FreeWheel 机器学习团队负责人
专栏
已完结·共 36 讲
|
8725 人已学
|
收藏
流水线计算模式指的是:在同一 Stage 内部,所有算子融合为一个函数,Stage 的输出结果由这个函数一次性作用在输入数据集而产生
来自:04 | DAG与流水线:到底啥叫“内存计算”?
8 人划过
是因为这条建议本身就不对吗?肯定不是。通过对比查询计划,我们能够明显看到 UDF 与 SQL functions 的区别。Spark SQL 的 Catalyst Optimizer 能够明确感知 SQL functions 每一步在做什么,因此有足够的优化空间。相反,UDF 里面封装的计算逻辑对于 Catalyst Optimizer 来说就是个黑盒子,除了把 UDF 塞到闭包里面去,也没什么其他工作可做的。
来自:02 | 性能调优的本质:调优的手段五花八门,该从哪里入手?
5 人划过
随机内存访问会大幅降低 CPU cache 命中率。
来自:23 | 钨丝计划:Tungsten给开发者带来了哪些福报?
3 人划过
数据结构的分发和存储受制于并行,并且是以 Task 为粒度的,因此往往频次过高
来自:12 | 广播变量(一):克制Shuffle,如何一招制胜!
3 人划过
并行度越高,数据的粒度越细,数据分片越多,数据越分散。
来自:14 | CPU视角:如何高效地利用CPU?
3 人划过
也就是说,即便你没有缓存任何 RDD 或是广播变量,Storage Memory 区域的空闲内存也不能用来执行 Shuffle 中的映射、排序或聚合等操作,因此宝贵的内存资源就被这么白白地浪费掉了。
来自:07 | 内存管理基础:Spark如何高效利用有限的内存空间?
3 人划过
RDD 的 4 大属性又可以划分为两类,横向属性和纵向属性。其中,横向属性锚定数据分片实体,并规定了数据分片在分布式集群中如何分布;纵向属性用于在纵深方向构建 DAG,通过提供重构 RDD 的容错能力保障内存计算的稳定性。
来自:03 | RDD:为什么你必须要理解弹性分布式数据集?
3 人划过
4. 按照调度规则决定优先调度哪些任务 / 组;
来自:05 | 调度系统:“数据不动代码动”到底是什么意思?
3 人划过
而且数据分析场景中常见的关联、排序和聚合等操作都会消耗执行内存
来自:09 | 调优一筹莫展,配置项速查手册让你事半功倍!(上)
3 人划过
*精彩内容为该课程各文章中划线次数最多的内容
免费试读
讲师

吴磊

前 FreeWheel 机器学习团队负责人

吴磊,前 Comcast Freewheel 机器学习团队负责人,负责计算广告业务中机器学习应用的实践、落地与推广。曾任职于 IBM、联想研究院、新浪微博,具备丰富的数据库、数据仓库、大数据开发与调优经验。 吴磊热爱技术分享,擅长从生活的视角解读技术。做过 Spark Su...查看更多
编辑推荐
讲师的其他课程
零基础入门 Spark
吴磊
前 FreeWheel 机器学习研发经理

38讲 | 19024 人已学习

¥59¥129
包含这门课的学习路径

机器学习工程师

13门课程 37.4w人学习
看过的人还看了
数据结构与算法之美
王争
前 Google 工程师

81讲 | 282589 人已学习

¥68¥199
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 223783 人已学习

¥68¥199
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 179866 人已学习

¥98¥399
设计模式之美
王争
前 Google 工程师,《数据结构与算法之美》专栏作者

113讲 | 122761 人已学习

¥98¥299
Redis 核心技术与实战
蒋德钧
中科院计算所副研究员

53讲 | 81059 人已学习

¥68¥199
Kafka 核心技术与实战
胡夕
Apache Kafka Committer,老虎证券技术总监

47讲 | 52588 人已学习

¥68¥199