Spark 性能调优实战

你将获得

目前，Spark 已然成为分布式数据处理技术的事实标准，也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说，Spark 开发都是一项必备技能；而想要进入大厂，就更得有丰富的 Spark 性能调优经验。

可现实情况是，我们想要快速上手开发应用很容易，把握应用的执行性能却总也找不到头绪，比如：

为此，我们特意邀请到了吴磊老师，他根据自己多年的数据处理经验，梳理出了一套关于性能调优的方法论，帮助你在有效加速 Spark 作业执行性能的同时，也建立起以性能为导向的开发习惯。

除此之外，他还会手把手教你打造一个分布式应用，带你从不同角度洞察汽油车摇号的趋势和走向，让你对性能调优技巧和思路的把控有一个“质的飞跃”。

课程按照原理、性能、实战分为三大部分。

原理篇：主要讲解与性能调优息息相关的核心概念，包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅，让你在最短的时间内掌握其核心原理，为后续的性能调优打下坚实的基础。

性能篇：虽然 Spark 的应用场景可以分为 5 大类，包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对 Spark SQL 的倾斜和倚重也是有目共睹，所以性能篇主要分两部分来讲。

一部分主要讲解性能调优的通用技巧，包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域，借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联，总结 Spark SQL 中的调优方法和技巧。

实战篇：以 2011-2019 的《北京市汽油车摇号》数据为例，手把手教你打造一个分布式应用，带你从不同角度洞察汽油车摇号的趋势和走向，帮助你实践我们的方法论和调优技巧，不仅要学得快，也要学得好！

除此之外，课程更新期间，还会不定期地针对一些热点话题进行加餐。比如，和 Flink、Presto 相比，Spark 有哪些优势；再比如，Spark 的一些新特性，以及业界对于 Spark 的新探索。这也能帮助你更好地面对变化，把握先机。

查看更多

免费试读

订阅成功后，推荐通过“极客时间”App 端、Web 端学习。
本专栏为虚拟商品，交付形式为图文 + 音频，一经订阅，概不退款。
订阅后分享海报，每邀一位好友订阅有现金返现。
戳此先充值再购课更划算，还有最新课表、超值赠品福利等。
企业采购推荐使用“极客时间企业版”便捷安排员工学习计划，掌握团队学习仪表盘。
戳此申请学生认证，订阅课程享受原价 5 折优惠。
价格说明：划线价、订阅价为商品或服务的参考价，并非原价，该价格仅供参考。未划线价格为商品或服务的实时标价，具体成交价格根据商品或服务参加优惠活动，或使用优惠券、礼券、赠币等不同情形发生变化，最终实际成交价格以订单结算页价格为准。

讲师

吴磊，前 Comcast Freewheel 机器学习团队负责人，负责计算广告业务中机器学习应用的实践、落地与推广。曾任职于 IBM、联想研究院、新浪微博，具备丰富的数据库、数据仓库、大数据开发与调优经验。吴磊热爱技术分享，擅长从生活的视角解读技术。做过 Spark Su...查看更多