你将获得
掌握 Spark Core 架构与 RDD 编程模型
理解任务调度、内存管理核心机制
精通 SparkSQL 架构与查询优化原理
掌握数据倾斜及性能优化解决方案
具备自定义优化规则与高级开发能力
课程介绍
本课程分四大模块系统讲解 Spark 全栈进阶技术:上篇涵盖 Spark 发展历程、RDD 编程模型、Core 架构及任务调度;下篇聚焦 Spark Streaming、Shuffle 机制、数据倾斜优化等核心能力;SparkSQL 上下篇深入剖析架构、DataFrame、查询优化器、代码生成等底层原理,及 AQE、DPP 加速等高级优化技术。课程兼具理论深度与实践指导性,助力企业内部技术人员夯实 Spark 核心基础,提升架构认知与性能调优能力,适配大规模数据处理与分析场景需求。
课程目录
第一章:Spark(上篇)
- Spark 发展历程和现状
- RDD 编程模型(上)
- RDD 编程模型(下)
- Spark Core 架构和原理
- Spark 任务调度
- 开发第一个 Spark 程序
第二章:Spark(下篇)
- Spark Streaming
- Spark Shuffle
- 数据倾斜及其优化
- Spark 内存管理
- Spark 消息通讯机制
第三章:SparkSQL(上篇)
- SparkSQL 的基本架构
- 结构化数据和 DataFrame
- Spark SQL 中的“树”
- SQL 编译器和 ANTLR
- Catalog 和 HiveCatalog
- 逻辑计划树和优化器
第四章:SparkSQL(下篇)
- 物理计划树和策略器
- 一个例子
- 自定义 Catalyst 规则
- 代码生成技术
- 向量化技术
- SparkThriftserver
- Spark 的 AQE
- Spark 的 DPP 加速
- Spark SQL 优化技术
- SparkSQL 总结
查看更多
看过的人还看了










