极客时间

大数据项目实战营

王超

大数据培训专家

15 人已学习

立即订阅

课程目录

已完结/共 157 讲

模块一：分布式计算体系基础：Hadoop (13讲)



0. 课程前置环境安装配置说明

时长 14:59

1. ZooKeeper 集群理论基础

时长 17:20

2. ZooKeeper 集群的 shell 操作命令

时长 13:47

3. ZooKeeper 的 JavaAPI 操作

时长 14:52

4. ZooKeeper 分布式锁实现机制

时长 21:02

5. ZooKeeper 总结

时长 02:59

6. Hadoop 基本介绍

时长 14:11

7. HDFS 架构详解及 Block 块存储

时长 14:39

8. HDFS 的 shell 操作命令

时长 17:17

9. HDFS 的安全机制及 JavaAPI 操作

时长 17:09

10. HDFS 读取数据的流程

时长 14:26

11. HDFS 元数据管理以及其他功能

时长 16:54

12. HDFS 总结

时长 06:17

模块一：MapReduce 与 Yarn (8讲)



1. MapReduce 核心思想以及编程步骤

时长 17:39

2. 单词计数统计代码实现过程

时长 15:32

3. MapReduce 工作机制

时长 15:00

4. MapReduce 程序分组求 Top1

时长 18:04

5. YARN 集群资源管理基本架构介绍

时长 18:34

6. YARN 的任务日志

时长 18:03

7. YARN 的任务调度

时长 19:54

8. YARN 的自定义调度队列及任务提交流程

时长 13:07

模块二：数据仓库经典工具：Hive (10讲)



时长 20:47

时长 18:38

时长 20:06

时长 19:57

时长 14:48

时长 23:45

时长 23:11

时长 14:42

时长 17:45

时长 20:27

模块三：高性能、可扩展的数据库：HBase (11讲)



1. HBase 的基本介绍及表模型

时长 14:49

2. HBase 整体架构设计

时长 10:26

3. HBase 的 shell 操作命令

时长 16:50

4. HBase 的 JavaAPI 查询操作

时长 15:02

5. HBase 的过滤器查询

时长 09:32

6. HBase 与 MapReduce 的集成实现

时长 13:26

7. Hive 与 HBase 的整合实现

时长 17:09

8. HBase 的数据存储及读写过程

时长 16:38

9. HBase 的 Flush、Compact、region 预分区

时长 17:37

10. HBase 的 rowkey 设计原则及分裂策略

时长 15:23

11. 加餐：使用 Phoenix 给 HBase 创建二级索引

时长 12:25

模块四：可靠的分布式消息队列：Kafka (10讲)



1. 消息队列基本介绍及 Kafka 的集群架构设计

时长 15:59

时长 17:16

时长 11:19

时长 16:27

时长 29:01

6. 消费者 Offset 及 Rebalance 机制

时长 23:34

7. 控制器及内核原理

时长 25:45

8. Kafka 的核心参数配置

时长 16:51

9. Kafka 的服务压测及数据迁移负载均衡

时长 08:45

10. Kafka 内容总结

时长 10:08

模块五：连接数据与业务：数据 ETL (7讲)



1. Flume 的介绍及入门案例

时长 30:56

2. Flume 的数据采集

时长 35:33

3. Flume 的拦截器和其他自定义功能

时长 30:05

4. DataX 数据同步工具

时长 39:17

5. Maxwell 数据同步工具

时长 38:48

6. Azkaban 的基本介绍及环境安装

时长 29:52

7. Azkaban 的使用案例

时长 26:06

实践案例一：基于游戏行业的离线数仓构建项目 (4讲)



时长 03:04:08

时长 03:06:54

时长 03:14:35

时长 03:13:00

模块六：高效编程语言：Scala (12讲)



时长 15:22

时长 16:33

时长 16:04

时长 17:35

时长 37:37

时长 31:31

7. Scala 的类基本操作及抽象类定义

时长 15:55

8. Trait 操作

时长 25:17

9. 模式匹配以及样例类操作

时长 22:44

10. Option 类型、偏函数、异常处理、提取器

时长 16:50

11. 泛型、上下界、以及协变、逆变和非变

时长 23:29

12. 隐式转换和隐式参数

时长 21:37

模块七：功能更强大的数据处理引擎：Spark（上篇） (8讲)



1. Spark 的基本概念与核心模块

时长 16:00

2. Spark 的代码开发和运行模式

时长 23:22

3. Spark 程序开发和 Spark 的任务提交

时长 25:09

时长 23:10

时长 24:57

时长 30:05

时长 26:07

时长 22:09

模块七：功能更强大的数据处理引擎：Spark（中篇） (11讲)



1. SparkSQL 基本介绍

时长 16:14

2. SparkSQL 的 DataFrame 创建方式

时长 26:07

3. sparkSQL 的 DataFrame 操作及 DataSet

时长 12:24

4. SparkSQL 整合其它外部数据源

时长 21:53

时长 18:54

时长 13:05

时长 31:58

时长 25:02

9. SparkStreaming 的基本介绍

时长 22:08

10. SparkStreaming 的高级算子操作

时长 21:06

11. SparkStreaming 数据输出及整合 Kafka

时长 26:00

模块七：功能更强大的数据处理引擎：Spark（下篇） (6讲)



1. RDD 的血统、缓存与 checkpoint 机制

时长 19:42

时长 10:25

时长 20:06

时长 22:42

时长 21:41

时长 12:06

实践案例二：基于 Spark 的出行行业一站式解决方案 (3讲)



1. 智慧出行项目（一）

时长 03:08:14

3. 智慧出行项目（三）

时长 03:13:31

2. 智慧出行项目（二）

时长 02:10:04

模块八：实时处理利器：Flink（一） (5讲)



1. Flink 的基本介绍

时长 18:35

2. Flink 的集群架构及集群运行

时长 25:45

3. Flink 的入门案例及并行度设置

时长 23:03

4. 数据源及 DataStream 转换算子

时长 32:03

5. DataSet 转换算子

时长 18:32

模块八：实时处理利器：Flink（二） (4讲)



1. Flink 中的 connector

时长 22:17

2. 计数器累加器、分布式缓存和 Task 数据传输策略

时长 27:06

3. Flink 的四层模型和 State

时长 20:33

4. Flink 的 ValueState、ListState 操作

时长 26:03

模块八：实时处理利器：Flink（三） (8讲)



1. Flink 的 mapState、reduceingState 等操作

时长 23:06

时长 18:07

时长 28:07

时长 17:08

时长 17:36

时长 19:06

时长 24:36

时长 22:02

模块八：实时处理利器：Flink（四） (7讲)



1. Flink 的数据增量聚合及全量聚合

时长 33:07

2. Flink 的 watermark 机制和顺序数据的 watermark

时长 30:04

3. 使用 watermark 机制处理乱序数据

时长 29:01

4. 用 connect 实现两个流数据的 join 操作

时长 29:32

5. 三种窗口类型的数据关联

时长 19:06

6. TableAPI 和 SQL 的基本介绍

时长 23:04

7. Flink 的基本编程

时长 26:34

模块八：实时处理利器：Flink（五） (7讲)



1. TableAPI 的各种数据源输入

时长 25:51

2. TableAPI 的 MySQL 及 Hive 数据源输入

时长 17:03

3. TableAPI 的数据输出

时长 30:25

4. FlinkSQL 的语法

时长 29:41

5. TableAPI 基于窗口的操作简介

时长 25:35

6. TableAPI 基于滑动窗口、会话窗口的操作

时长 27:16

7. TableAPI 基于 OverWindow 的操作

时长 26:32

模块八：实时处理利器：Flink（六） (6讲)



1. FlinkSQL 基于 GroupWindow 的操作

时长 25:10

2. FlinkSQL 基于 OverWindow 的操作

时长 12:45

3. FlinkSQL 的自定义 UDF、UDTF 函数

时长 41:38

4. FlinkSQL 的自定义 UDAF 函数

时长 15:11

5. Flink 的 CEP 复杂事件处理

时长 30:47

6. CEP 实战案例

时长 32:24

实践案例三：基于 Flink 的航空反爬虫项目实践 (3讲)



1. Spark出行项目+Flink

时长 03:08:49

2. Flink项目实战（二）

时长 03:17:02

3. Flink实战（三）

时长 03:12:22

模块九：为多源信息存储而生的数据湖 (4讲)



1. 数据湖基本概述

时长 32:17

2. Hudi 的架构设计