你将获得
掌握 Spark 核心概念与 RDD 操作技能
熟练运用 SparkSQL 及外部数据源整合
精通 SparkStreaming 与 Kafka 集成应用
理解 Spark 底层执行与任务调度机制
掌握数据倾斜等性能优化解决方案
课程介绍
本课程系统讲解 Spark 数据处理引擎全栈知识,分上、中、下三篇层层递进。上篇覆盖 Spark 基础概念、核心模块、RDD 算子及实战案例;中篇聚焦 SparkSQL 核心操作、外部数据源整合、底层原理与调优,以及 SparkStreaming 与 Kafka 集成;下篇深入剖析 RDD 血统、DAG、shuffle 过程,讲解任务调度、内存管理及数据倾斜处理。课程兼具理论严谨性与实战指导性,助力企业内部技术人员全面掌握 Spark 从基础开发到性能调优的全流程技能,适配大规模数据处理场景需求。
课程目录
第一章:功能更强大的数据处理引擎:Spark(上篇)
- Spark 的基本概念与核心模块
- Spark 的代码开发和运行模式
- Spark 程序开发和 Spark 的任务提交
- Spark 的核心数据抽象 RDD
- Spark 的常见算子介绍
- Spark 实战案例(一)
- Spark 的广播变量和累加器
- Spark 实战案例(二)
第二章:功能更强大的数据处理引擎:Spark(中篇)
- SparkSQL 基本介绍
- SparkSQL 的 DataFrame 创建方式
- SparkSQL 的 DataFrame 操作及 DataSet
- SparkSQL 整合其它外部数据源
- SparkSQL 自定义函数
- 实践案例(一)
- SparkSQL 的底层执行原理
- Catalog 及 SQL 调优
- SparkStreaming 的基本介绍
- SparkStreaming 的高级算子操作
- SparkStreaming 数据输出及整合 Kafka
- Spark 作业
第三章:功能更强大的数据处理引擎:Spark(下篇)
- RDD 的血统、缓存与 checkpoint 机制
- DAG 有向无环图
- shuffle 过程详解
- 任务调度与内存管理
- Spark 序列化与反序列化
- 数据倾斜问题及处理方法
查看更多
看过的人还看了










