20 | DataStream API实践原理-Flink核心技术与实战-极客时间

Flink 核心技术与实战

张利兵

第四范式数据中台架构师，Apache Flink 贡献者

16166 人已学习

新⼈⾸单¥68

课程目录

已完结/共 91 讲

第一章：Apache Flink介绍 (5讲)



01 | 课程介绍

时长 07:02

02 | 内容综述

时长 02:47

03 | 流处理技术概览

时长 13:44

04 | Flink发展历史与应用场景

时长 06:24

05 | Flink核心特性

时长 07:59

第二章：Flink部署与应用 (13讲)



06 | Flink集群架构

时长 19:58

07 | Flink集群运行模式

时长 17:21

08 | Flink集群资源管理器支持

时长 07:28

09 | Standalone原理讲解与实操演示

时长 23:53

10 | Flink On Yarn部署讲解

时长 18:33

11 | Flink On Yarn实操演示

时长 21:08

12 | Flink On Kubernetes部署讲解

时长 30:09

13 | Flink On Kubernetes实操：Session模式

时长 09:32

14 | Flink On Kubernetes实操：Per-job模式

时长 10:09

15 | Flink On Kubernetes Native部署讲解

时长 12:12

16 | Flink On Kubernetes Native实操演示

时长 13:42

17 | Flink高可用配置原理讲解

时长 09:17

18 | Flink高可用配置实操演示

时长 07:11

第三章：Flink DataStream API实践原理 (19讲)



19 | 分布式流处理模型

时长 04:44

20 | DataStream API实践原理

时长 31:34

21 | Flink时间概念

时长 06:23

22 | Watermark实践原理

时长 12:50

23 | Watermark与Window的关系

时长 17:46

24 | Watermark Generator

时长 17:01

25 | Windows窗口计算

时长 10:10

26 | Window Assigner

时长 10:38

27 | Window Trigger

时长 14:17

28 | Window Evictors

时长 07:57

29 | Window Function

时长 24:20

30 | Windows多流合并

时长 18:15

31 | Process Function应用

时长 20:07

32 | SideOutput旁路输出

时长 10:53

33 | Asynchronous I/O异步操作

时长 20:51

34 | Pipeline与StreamGraph转换

时长 16:33

35 | Flink类型系统

时长 18:14

36 | 自定义SourceFunction

时长 17:57

37 | 项目实战：基于DataStream API实现PV，UV统计

时长 18:32

第四章：Flink状态管理和容错 (13讲)



38 | 有状态计算概念

时长 13:24

39 | 状态类型及应用

时长 10:03

40 | KeyedState介绍与使用

时长 09:54

41 | OperatorState介绍与使用

时长 19:34

42 | BroadcastState介绍与使用

时长 27:28

43 | Checkpoint实现原理

时长 20:24

44 | Savepoint与Checkpoint

时长 17:13

45 | StateBackends状态管理器

时长 16:09

46 | State Schema Evolution

时长 11:47

47 | State序列化与反序列化

时长 16:55

48 | Queryable State介绍与使用

时长 15:42

49｜项目实战：实时交易反欺诈项目介绍

时长 19:42

50｜项目实战：实时交易反欺诈项目演示

时长 12:23

第五章：Flink Table & SQL实践原理 (19讲)



51｜Flink Table API/SQL介绍与使用

时长 22:00

52｜Table API/SQL核心概念

时长 28:40

53｜DataStream & DataSet 与Table相互转换

时长 17:16

54｜Table Connector介绍与使用

时长 23:12

55｜Querying Dynamic Tables

时长 27:33

56｜TimeStamp与Watermark时间属性定义

时长 23:17

57｜Query With Temporal Condition

时长 17:55

58｜Join With Dynamic Table

时长 20:33

59｜Join With Temporal Function

时长 11:08

60｜Join With Temporal Tables

时长 12:04

61｜Catalog原理与使用

时长 14:43

62｜Apache Hive集成

时长 20:38

63｜SQL Client介绍与使用

时长 16:05

64｜Flink SQL Table数据类型

时长 19:55

65｜自定义Function

时长 21:04

66｜Table Connector使用

时长 13:37

67｜自定义Connector

时长 23:41

68｜new tablesource & tablesink api

时长 12:52

69｜项目实战：基于Flink SQL实现Top10商品统计

时长 17:30

第六章：Flink Runtime设计与实现 (11讲)



70｜Runtime整体架构

时长 15:57

71｜Flink Client实现原理

时长 19:54

72｜ResourceManager资源管理

时长 16:07

73｜Dispatcher任务分发器

时长 17:44

74｜JobGraph提交与运行（上）

时长 22:23

75｜JobGraph提交与运行（下）

时长 25:49

76｜Task执行与调度

时长 23:32

77｜Task重启和容错策略

时长 14:17

78｜集群组件RPC通信机制

时长 18:06

79｜NetworkStatck实现原理

时长 22:10

80｜Flink内存管理

时长 22:36

第七章：Flink监控与性能优化 (5讲)



81｜Metric指标分类与采集

时长 16:57

82｜Flink REST API介绍与使用

时长 10:25

83｜Checkpoint监控与调优

时长 28:00

84｜反压监控与原理

时长 18:48

85｜Flink内存配置与调优

时长 16:32

第八章：Flink组件栈介绍与使用 (4讲)



86｜PyFlink实践与应用

时长 20:33

87｜Flink复杂事件处理：Complex event process

时长 20:31

88｜Alink机器学习框架介绍与使用

时长 13:40

89｜Stateful Function介绍与使用

时长 18:18

第九章：项目实战-使用Flink构建推荐系统实时数据流 (2讲)



90｜实时推荐系统项目设计与实现

时长 13:54

时长 06:17



Flink 核心技术与实战

登录|注册



留言

9



收藏



沉浸
阅读



分享



手机端



回顶部

当前播放: 20 | DataStream API实践原理

00:00 / 00:00

高清

高清

1.0x

2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

付费课程，可试看



01 | 课程介绍

02 | 内容综述

03 | 流处理技术概览

04 | Flink发展历史与应用场景

05 | Flink核心特性

06 | Flink集群架构

07 | Flink集群运行模式

08 | Flink集群资源管理器支持

09 | Standalone原理讲解与实操演示

10 | Flink On Yarn部署讲解

11 | Flink On Yarn实操演示

12 | Flink On Kubernetes部署讲解

13 | Flink On Kubernetes实操：Session模式

14 | Flink On Kubernetes实操：Per-job模式

15 | Flink On Kubernetes Native部署讲解

16 | Flink On Kubernetes Native实操演示

17 | Flink高可用配置原理讲解

18 | Flink高可用配置实操演示

19 | 分布式流处理模型

20 | DataStream API实践原理

21 | Flink时间概念

22 | Watermark实践原理

23 | Watermark与Window的关系

24 | Watermark Generator

25 | Windows窗口计算

26 | Window Assigner

27 | Window Trigger

28 | Window Evictors

29 | Window Function

30 | Windows多流合并

31 | Process Function应用

32 | SideOutput旁路输出

33 | Asynchronous I/O异步操作

34 | Pipeline与StreamGraph转换

35 | Flink类型系统

36 | 自定义SourceFunction

37 | 项目实战：基于DataStream API实现PV，UV统计

38 | 有状态计算概念

39 | 状态类型及应用

40 | KeyedState介绍与使用

41 | OperatorState介绍与使用

42 | BroadcastState介绍与使用

43 | Checkpoint实现原理

44 | Savepoint与Checkpoint

45 | StateBackends状态管理器

46 | State Schema Evolution

47 | State序列化与反序列化

48 | Queryable State介绍与使用

49｜项目实战：实时交易反欺诈项目介绍

50｜项目实战：实时交易反欺诈项目演示

51｜Flink Table API/SQL介绍与使用

52｜Table API/SQL核心概念

53｜DataStream & DataSet 与Table相互转换

54｜Table Connector介绍与使用

55｜Querying Dynamic Tables

56｜TimeStamp与Watermark时间属性定义

57｜Query With Temporal Condition

58｜Join With Dynamic Table

59｜Join With Temporal Function

60｜Join With Temporal Tables

61｜Catalog原理与使用

62｜Apache Hive集成

63｜SQL Client介绍与使用

64｜Flink SQL Table数据类型

65｜自定义Function

66｜Table Connector使用

67｜自定义Connector

68｜new tablesource & tablesink api

69｜项目实战：基于Flink SQL实现Top10商品统计

70｜Runtime整体架构

71｜Flink Client实现原理

72｜ResourceManager资源管理

73｜Dispatcher任务分发器

74｜JobGraph提交与运行（上）

75｜JobGraph提交与运行（下）

76｜Task执行与调度

77｜Task重启和容错策略

78｜集群组件RPC通信机制

79｜NetworkStatck实现原理

80｜Flink内存管理

81｜Metric指标分类与采集

82｜Flink REST API介绍与使用

83｜Checkpoint监控与调优

84｜反压监控与原理

85｜Flink内存配置与调优

86｜PyFlink实践与应用

87｜Flink复杂事件处理：Complex event process

88｜Alink机器学习框架介绍与使用

89｜Stateful Function介绍与使用

90｜实时推荐系统项目设计与实现

91｜结束语



本节摘要

课件和 Demo 地址
https://gitee.com/geektime-geekbang/geektime-Flink

登录后留言

全部留言(9)

最新
精选

杨杰

我想请教一个问题，虽然可能跟这节课程无关，但是一直是比较困扰我的。一般我们用flink构建实时数据中心的时候，都难免涉及到一个从交易系统数据库进行CDC的过程，如果这个CDC的过程中间出现中断了（或者其他的数据源产生的过程由于故障中断了），那就会对整个的统计产生比较大的影响，请问在实际生产环境下是如何避免这个问题的呢？

作者回复: 需要结合CDC和Checkpoint，实现数据一致性保证，这边避免数据重复消费的问题；

2021-05-18



1

geek2020

老师，我跑了个WordCount的用例，有个疑问想请教下。flink内存中，存储的是word的具体内容，还是每轮计算之后的结果？比如我给flink的输入是"a a a b b"，那flink算完后在内存中保存的是(a, 3)、(b, 2)，还是保存a、a、a、b、b这个明细？另外，如果任务跑的时间久了，比如累计统计了几十亿个不同的word，会不会有内存溢出的风险？

作者回复: Flink中如果是Stream模式下，计算WordCount都是基于Window来计算的，只有在离线模式下才会统计全量数据，如果要做全量数据的WordCount可以基于状态来统计，但是不太建议，毕竟单词数量还是不小的。

2020-09-18

2



Geek_f9d390

没有开发经验，感觉听起来有点累

2020-11-19

6

7

Allan

datastream主要操作四部分：1、单条处理 2、窗口处理 3、合并处理 4、拆分处理，这样一分就容易针对每个算子属于哪一部分说明了

2021-02-23



4

tina

这里有个疑问，KeyedStream、物理分组，等等，都是什么场景下会使用呢？老师能举个例子嘛

2022-03-20



1

Geek_f8cc0e

方便加微信吗

2023-06-14





Geek_3360b0

这里感觉应该也结合经典的 ETL 进行解释下，甚至 CDC

2023-03-14





马来酸

老师我想问如果keyby两次, 然后再window()会有几个窗口？ // 我想对不同船(id)的轨迹进行预测, 然后统计各个区域(area)内每一秒的轨迹信息 // 像下面这样写, 最后的窗口是只按area划分的吗, 能达到预期效果嘛? >> stream.keyby("id") // 在里面使用key state存储每条船最新的三个轨迹点 // 根据三个轨迹点对轨迹进行预测, 输出未来10的预测轨迹 >> .richflatmap() >> .assignTime() // 修改轨迹eventTime为预测出的时间 >> .keyby("area") >> .window(1s) // 只根据区域划分窗口, 长度为1s的滚动窗口 >> .process() // 统计各个区域内某一秒时是否有距离过近的两艘船

2021-02-22





Brave chan

老师，我想问下，我的stream在按照id进行keyby后再执行多并行度的算子时可以保证同一个id的数据落算子的同一个子线程任务中吗？

2020-09-21





收起评论