Spark 数据处理引擎实战

你将获得

掌握 Spark 核心概念与 RDD 操作技能
熟练运用 SparkSQL 及外部数据源整合
精通 SparkStreaming 与 Kafka 集成应用
理解 Spark 底层执行与任务调度机制
掌握数据倾斜等性能优化解决方案

课程介绍

本课程系统讲解 Spark 数据处理引擎全栈知识，分上、中、下三篇层层递进。上篇覆盖 Spark 基础概念、核心模块、RDD 算子及实战案例；中篇聚焦 SparkSQL 核心操作、外部数据源整合、底层原理与调优，以及 SparkStreaming 与 Kafka 集成；下篇深入剖析 RDD 血统、DAG、shuffle 过程，讲解任务调度、内存管理及数据倾斜处理。课程兼具理论严谨性与实战指导性，助力企业内部技术人员全面掌握 Spark 从基础开发到性能调优的全流程技能，适配大规模数据处理场景需求。

课程目录

第一章：功能更强大的数据处理引擎：Spark（上篇）

Spark 的基本概念与核心模块
Spark 的代码开发和运行模式
Spark 程序开发和 Spark 的任务提交
Spark 的核心数据抽象 RDD
Spark 的常见算子介绍
Spark 实战案例（一）
Spark 的广播变量和累加器
Spark 实战案例（二）

第二章：功能更强大的数据处理引擎：Spark（中篇）

SparkSQL 基本介绍
SparkSQL 的 DataFrame 创建方式
SparkSQL 的 DataFrame 操作及 DataSet
SparkSQL 整合其它外部数据源
SparkSQL 自定义函数
实践案例（一）
SparkSQL 的底层执行原理
Catalog 及 SQL 调优
SparkStreaming 的基本介绍
SparkStreaming 的高级算子操作
SparkStreaming 数据输出及整合 Kafka
Spark 作业

第三章：功能更强大的数据处理引擎：Spark（下篇）

RDD 的血统、缓存与 checkpoint 机制
DAG 有向无环图
shuffle 过程详解
任务调度与内存管理
Spark 序列化与反序列化
数据倾斜问题及处理方法

查看更多

订阅须知

订阅成功后，推荐通过“极客时间”App 端、Web 端学习。
本课程为虚拟商品，交付形式为视频，一经订阅，概不退款。
订阅后分享海报，每邀一位好友订阅有现金返现。
戳此先充值再购课更划算，还有最新课表、超值赠品福利。
企业采购推荐使用“极客时间企业版”便捷安排员工学习计划，掌握团队学习仪表盘。
戳此申请学生认证，订阅课程享受原价 5 折优惠。
价格说明：划线价、订阅价为商品或服务的参考价，并非原价，该价格仅供参考。未划线价格为商品或服务的实时标价，具体成交价格根据商品或服务参加优惠活动，或使用优惠券、礼券、赠币等不同情形发生变化，最终实际成交价格以订单结算页价格为准。

讲师

王超( 老王)

大数据资深讲师

经历过创业公司、国有企业、上市公司以及独角兽互联网企业。先后任职 Java 研发工程师、大数据工程师、大数据架构师、大数据资深讲师等职务。做过互联网电商平台、数仓建设平台、实时数据处理平台、数据中台建设，自主 BI 分析平台等，熟悉各类大数据的业务场景，有过多次架构设计及落...查看更多