零基础入门 Spark
从项目入手,带你深入浅出玩转 Spark
吴磊  前 FreeWheel 机器学习研发经理
专栏
已完结·共 38 讲
|
1.9w 人已学
|
收藏

你将获得

  • 快速构建 Spark 核心知识体系
  • Spark 三大计算场景案例实操
  • 逐句注释的保姆级代码讲解
  • 在故事中搞懂 Spark 开发实战技巧

课程介绍

说到学习 Spark,如果你对“Spark 还有那么火吗?会不会已经过时了?”这个问题感到困惑,那大可不必。

因为经过十多年的发展,Spark 已经由当初的“大数据新秀”成长为数据应用领域的中流砥柱,早已成为各大头部互联网公司的标配。比如,字节跳动、美团、Netflix 等公司基于 Spark 构建的应用,在为公司旗下的核心产品提供服务。

这也就意味着,对于数据应用领域的任何一名工程师来说,Spark 开发都是一项必备技能

虽然 Spark 好用,而且是大数据从业者的一门必修课,但对于入门这件事儿,却也面临着这样一些难题:

  • 学习资料多且杂,自己根本就梳理不出脉络,更甭提要构建结构化的知识体系了。
  • 学习 Spark,一定要先学 Scala 吗?新学一门编程语言,真不是件容易的事儿。
  • Spark 的开发算子太多,记不住,来了新的业务需求,又不知道该从哪里下手。
  • ……

那么,该如何解决这些问题,从而打开 Spark 应用开发的大门呢?

为此,我们邀请到了吴磊老师。他会结合自己这些年学习、应用和实战 Spark 的丰富经验,为你梳理一套零基础入门 Spark 的“三步走”方法论:熟悉 Spark 开发 API 与常用算子、吃透 Spark 核心原理、玩转 Spark 计算子框架,从而帮助你零基础上手 Spark 。

这个“三步走”方法论再配合 4 个不同场景的小项目,吴磊老师会从基本原理到项目落地,带你深入浅出玩转 Spark。

课程模块设计

结合 Spark 最常用的计算子框架,这门课设计为 4 个模块,它与“三步走”方法论的对应关系如下:

基础知识模块:从一个叫作“Word Count”的小项目开始,详细地讲解 RDD 常用算子的含义、用法与适用场景,以及 RDD 编程模型、调度系统、Shuffle 管理、内存管理等核心原理,帮你打下坚实的理论基础。

Spark SQL 模块:从“小汽车摇号”项目入手,带你熟悉 Spark SQL 开发 API,为你讲解 Spark SQL 的核心原理与优化过程,以及 Spark SQL 与数据分析有关的部分,如数据的转换、清洗、关联、分组、聚合、排序,等等。

Spark MLlib 模块:从“房价预测”这个小项目入手,带你了解 Spark 在机器学习中的应用,深入学习 Spark MLlib 丰富的特征处理函数和它支持的模型与算法,并带你了解 Spark + XGBoost 集成是如何帮助开发者应对大多数的回归与分类问题。

Structured Streaming 模块:重点讲解 Structured Streaming 是怎么同时保证语义一致性与数据一致性的,以及如何应对流处理中的数据关联,并通过 Kafka + Spark 这对“Couple”的系统集成,来演示流处理中的典型计算场景。

课程目录

查看更多
免费试读

特别放送

免费领取福利

订阅须知

  1. 订阅成功后,推荐通过“极客时间”App 端、Web 端学习。
  2. 本专栏为虚拟商品,交付形式为图文 + 音频,一经订阅,概不退款。
  3. 订阅后分享海报,每邀一位好友订阅有现金返现。
  4. 戳此先充值再购课更划算,还有最新课表、超值赠品福利等。
  5. 企业采购推荐使用“极客时间企业版”便捷安排员工学习计划,掌握团队学习仪表盘。
  6. 戳此申请学生认证,订阅课程享受原价 5 折优惠。
  7. 价格说明:划线价、订阅价为商品或服务的参考价,并非原价,该价格仅供参考。未划线价格为商品或服务的实时标价,具体成交价格根据商品或服务参加优惠活动,或使用优惠券、礼券、赠币等不同情形发生变化,最终实际成交价格以订单结算页价格为准。
讲师

吴磊

前 FreeWheel 机器学习研发经理

吴磊,前 Freewheel 机器学习研发经理,负责计算广告业务中机器学习应用的实践、落地与推广。他还曾任职于 IBM、联想研究院、新浪微博,具备丰富的数据库、数据仓库、大数据开发与调优经验。 吴磊热爱技术分享,擅长使用轻松幽默的故事去解读枯燥的技术。曾于 Spark 中国峰会...查看更多
编辑推荐
讲师的其他课程
Spark 性能调优实战
吴磊
前 FreeWheel 机器学习团队负责人

36讲 | 8816 人已学习

¥59¥99
包含这门课的学习路径

机器学习工程师

13门课程 37.6w人学习
看过的人还看了
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 224935 人已学习

¥68¥199
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283805 人已学习

¥68¥199
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 181001 人已学习

¥98¥399
Redis 核心技术与实战
蒋德钧
中科院计算所副研究员

53讲 | 81747 人已学习

¥68¥199
Spark 性能调优实战
吴磊
前 FreeWheel 机器学习团队负责人

36讲 | 8816 人已学习

¥59¥99
设计模式之美
王争
前 Google 工程师,《数据结构与算法之美》专栏作者

113讲 | 123470 人已学习

¥98¥299