23 | Watermark与Window的关系-Flink核心技术与实战-极客时间

Flink 核心技术与实战

张利兵

第四范式数据中台架构师，Apache Flink 贡献者

16166 人已学习

新⼈⾸单¥68

课程目录

已完结/共 91 讲

第一章：Apache Flink介绍 (5讲)



01 | 课程介绍

时长 07:02

02 | 内容综述

时长 02:47

03 | 流处理技术概览

时长 13:44

04 | Flink发展历史与应用场景

时长 06:24

05 | Flink核心特性

时长 07:59

第二章：Flink部署与应用 (13讲)



06 | Flink集群架构

时长 19:58

07 | Flink集群运行模式

时长 17:21

08 | Flink集群资源管理器支持

时长 07:28

09 | Standalone原理讲解与实操演示

时长 23:53

10 | Flink On Yarn部署讲解

时长 18:33

11 | Flink On Yarn实操演示

时长 21:08

12 | Flink On Kubernetes部署讲解

时长 30:09

13 | Flink On Kubernetes实操：Session模式

时长 09:32

14 | Flink On Kubernetes实操：Per-job模式

时长 10:09

15 | Flink On Kubernetes Native部署讲解

时长 12:12

16 | Flink On Kubernetes Native实操演示

时长 13:42

17 | Flink高可用配置原理讲解

时长 09:17

18 | Flink高可用配置实操演示

时长 07:11

第三章：Flink DataStream API实践原理 (19讲)



19 | 分布式流处理模型

时长 04:44

20 | DataStream API实践原理

时长 31:34

21 | Flink时间概念

时长 06:23

22 | Watermark实践原理

时长 12:50

23 | Watermark与Window的关系

时长 17:46

24 | Watermark Generator

时长 17:01

25 | Windows窗口计算

时长 10:10

26 | Window Assigner

时长 10:38

27 | Window Trigger

时长 14:17

28 | Window Evictors

时长 07:57

29 | Window Function

时长 24:20

30 | Windows多流合并

时长 18:15

31 | Process Function应用

时长 20:07

32 | SideOutput旁路输出

时长 10:53

33 | Asynchronous I/O异步操作

时长 20:51

34 | Pipeline与StreamGraph转换

时长 16:33

35 | Flink类型系统

时长 18:14

36 | 自定义SourceFunction

时长 17:57

37 | 项目实战：基于DataStream API实现PV，UV统计

时长 18:32

第四章：Flink状态管理和容错 (13讲)



38 | 有状态计算概念

时长 13:24

39 | 状态类型及应用

时长 10:03

40 | KeyedState介绍与使用

时长 09:54

41 | OperatorState介绍与使用

时长 19:34

42 | BroadcastState介绍与使用

时长 27:28

43 | Checkpoint实现原理

时长 20:24

44 | Savepoint与Checkpoint

时长 17:13

45 | StateBackends状态管理器

时长 16:09

46 | State Schema Evolution

时长 11:47

47 | State序列化与反序列化

时长 16:55

48 | Queryable State介绍与使用

时长 15:42

49｜项目实战：实时交易反欺诈项目介绍

时长 19:42

50｜项目实战：实时交易反欺诈项目演示

时长 12:23

第五章：Flink Table & SQL实践原理 (19讲)



51｜Flink Table API/SQL介绍与使用

时长 22:00

52｜Table API/SQL核心概念

时长 28:40

53｜DataStream & DataSet 与Table相互转换

时长 17:16

54｜Table Connector介绍与使用

时长 23:12

55｜Querying Dynamic Tables

时长 27:33

56｜TimeStamp与Watermark时间属性定义

时长 23:17

57｜Query With Temporal Condition

时长 17:55

58｜Join With Dynamic Table

时长 20:33

59｜Join With Temporal Function

时长 11:08

60｜Join With Temporal Tables

时长 12:04

61｜Catalog原理与使用

时长 14:43

62｜Apache Hive集成

时长 20:38

63｜SQL Client介绍与使用

时长 16:05

64｜Flink SQL Table数据类型

时长 19:55

65｜自定义Function

时长 21:04

66｜Table Connector使用

时长 13:37

67｜自定义Connector

时长 23:41

68｜new tablesource & tablesink api

时长 12:52

69｜项目实战：基于Flink SQL实现Top10商品统计

时长 17:30

第六章：Flink Runtime设计与实现 (11讲)



70｜Runtime整体架构

时长 15:57

71｜Flink Client实现原理

时长 19:54

72｜ResourceManager资源管理

时长 16:07

73｜Dispatcher任务分发器

时长 17:44

74｜JobGraph提交与运行（上）

时长 22:23

75｜JobGraph提交与运行（下）

时长 25:49

76｜Task执行与调度

时长 23:32

77｜Task重启和容错策略

时长 14:17

78｜集群组件RPC通信机制

时长 18:06

79｜NetworkStatck实现原理

时长 22:10

80｜Flink内存管理

时长 22:36

第七章：Flink监控与性能优化 (5讲)



81｜Metric指标分类与采集

时长 16:57

82｜Flink REST API介绍与使用

时长 10:25

83｜Checkpoint监控与调优

时长 28:00

84｜反压监控与原理

时长 18:48

85｜Flink内存配置与调优

时长 16:32

第八章：Flink组件栈介绍与使用 (4讲)



86｜PyFlink实践与应用

时长 20:33

87｜Flink复杂事件处理：Complex event process

时长 20:31

88｜Alink机器学习框架介绍与使用

时长 13:40

89｜Stateful Function介绍与使用

时长 18:18

第九章：项目实战-使用Flink构建推荐系统实时数据流 (2讲)



90｜实时推荐系统项目设计与实现

时长 13:54

时长 06:17



Flink 核心技术与实战

登录|注册



留言

31



收藏



沉浸
阅读



分享



手机端



回顶部

当前播放: 23 | Watermark与Window的关系

00:00 / 00:00

高清

高清

1.0x

2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

付费课程，可试看



01 | 课程介绍

02 | 内容综述

03 | 流处理技术概览

04 | Flink发展历史与应用场景

05 | Flink核心特性

06 | Flink集群架构

07 | Flink集群运行模式

08 | Flink集群资源管理器支持

09 | Standalone原理讲解与实操演示

10 | Flink On Yarn部署讲解

11 | Flink On Yarn实操演示

12 | Flink On Kubernetes部署讲解

13 | Flink On Kubernetes实操：Session模式

14 | Flink On Kubernetes实操：Per-job模式

15 | Flink On Kubernetes Native部署讲解

16 | Flink On Kubernetes Native实操演示

17 | Flink高可用配置原理讲解

18 | Flink高可用配置实操演示

19 | 分布式流处理模型

20 | DataStream API实践原理

21 | Flink时间概念

22 | Watermark实践原理

23 | Watermark与Window的关系

24 | Watermark Generator

25 | Windows窗口计算

26 | Window Assigner

27 | Window Trigger

28 | Window Evictors

29 | Window Function

30 | Windows多流合并

31 | Process Function应用

32 | SideOutput旁路输出

33 | Asynchronous I/O异步操作

34 | Pipeline与StreamGraph转换

35 | Flink类型系统

36 | 自定义SourceFunction

37 | 项目实战：基于DataStream API实现PV，UV统计

38 | 有状态计算概念

39 | 状态类型及应用

40 | KeyedState介绍与使用

41 | OperatorState介绍与使用

42 | BroadcastState介绍与使用

43 | Checkpoint实现原理

44 | Savepoint与Checkpoint

45 | StateBackends状态管理器

46 | State Schema Evolution

47 | State序列化与反序列化

48 | Queryable State介绍与使用

49｜项目实战：实时交易反欺诈项目介绍

50｜项目实战：实时交易反欺诈项目演示

51｜Flink Table API/SQL介绍与使用

52｜Table API/SQL核心概念

53｜DataStream & DataSet 与Table相互转换

54｜Table Connector介绍与使用

55｜Querying Dynamic Tables

56｜TimeStamp与Watermark时间属性定义

57｜Query With Temporal Condition

58｜Join With Dynamic Table

59｜Join With Temporal Function

60｜Join With Temporal Tables

61｜Catalog原理与使用

62｜Apache Hive集成

63｜SQL Client介绍与使用

64｜Flink SQL Table数据类型

65｜自定义Function

66｜Table Connector使用

67｜自定义Connector

68｜new tablesource & tablesink api

69｜项目实战：基于Flink SQL实现Top10商品统计

70｜Runtime整体架构

71｜Flink Client实现原理

72｜ResourceManager资源管理

73｜Dispatcher任务分发器

74｜JobGraph提交与运行（上）

75｜JobGraph提交与运行（下）

76｜Task执行与调度

77｜Task重启和容错策略

78｜集群组件RPC通信机制

79｜NetworkStatck实现原理

80｜Flink内存管理

81｜Metric指标分类与采集

82｜Flink REST API介绍与使用

83｜Checkpoint监控与调优

84｜反压监控与原理

85｜Flink内存配置与调优

86｜PyFlink实践与应用

87｜Flink复杂事件处理：Complex event process

88｜Alink机器学习框架介绍与使用

89｜Stateful Function介绍与使用

90｜实时推荐系统项目设计与实现

91｜结束语



本节摘要

课件和 Demo 地址
https://gitee.com/geektime-geekbang/geektime-Flink

登录后留言

全部留言(31)

最新
精选

Allan

12:15的时候减去10i是12:05已经比之前的12:04大了，所以应该更新watermark了。如果进来的时间没有上次watermark的时间大，则不更新watermark并且按照这个eventtime的时间放到对应的时间区间窗口中。

作者回复: 正解

2020-09-19

5

4

最烦起名字

12:05这条记录了，课程讲解中，没有更新watermark。请老师给回答下吧~

作者回复: Watermark更新也要有周期的，所以叫period watermark，通常情况时延为0，Ppt里没有说明这点

2020-10-19

6

3

鱼

假如有一个事件 12:01 cat 在12:02到达的话，这种情况下这条记录不会在12:05-12:15的窗口之内，那么最终的输出应该是什么样的呢？

作者回复: 触发计算要需要两个条件： 1、Watermark是否大于窗口右边界，并触发窗口计算。 2、该事件的时间在窗口范围以内；只要满足以上两个条件就能将该事件纳入到所在窗口中并触发计算，然后输出结果。

2020-09-18



1

想

老师，我想请教下，每个窗口都包含上个窗口的记录，会导致最后一个窗口的数据记录特别大吧！这个问题有什么机制控制下

作者回复: 不理解，这种情况一般都是增量计算的，也就是结果值，另外窗口的原始数据只会记录当前窗口的，不属于的或者超时的都会丢弃

2020-12-24





qiufang

老师你好，我们这边有个场景，用flink消费一张表，每来一条数据，需要关联维表，进行数据转换。这个维表数据量比较大，更新不是频繁，flink 表可以直接关联关系型数据库中这张维表吗，或者有没有更好的实现方式。

作者回复: 可以参考后面table接口中temporaral table的使用

2020-09-23

2



danvid

12:15这个消息，没有触发watermark更新，老师你讲错了吧

2021-03-10

3

15

桂林

看明白了，这个图中的watermark是每5分钟更新一次。12:15的数据进来时，没到更新时间，所以watermark不变，还是12:04。processingTime为12:20时，12:15-12:20这个processingTime时间窗口里因为进来了一条12:21,owl的数据，所以更新watermark为12:11。12:26,owl这条数据进来时要等到processingTime为12:25时，更新watermark，并计算12:05-12:15的窗口数据

2021-04-15

3

5

偶尔复活下

看明白了，左右两个图要结合起来看。右图中的watermark更新设定是每5分钟更新一次（ppt里没说明，是period wm）。事件时间为12:15的数据进来时（处理时间大约是12:19分），还没到period wm的更新时间（更新时间是12:20），所以watermark不变，还是12:04。 processingTime为12:20时，12:15-12:20这个processingTime时间窗口里因为进来了一条事件时间为12:21,owl的数据，所以更新watermark为12:11。 12:26,owl这条数据进来时要等到processingTime为12:25时，才会更新watermark，并计算12:05-12:15的窗口数据

2021-09-15

1

2

Geek_7825d4

老实讲的透彻, 似乎自己也没特别明白

2022-11-11



1

sonald

这个图好像是spark官网的？

2022-10-21



1

收起评论