Flink 核心技术与实战
张利兵
第四范式数据中台架构师,Apache Flink 贡献者
16166 人已学习
新⼈⾸单¥68
课程目录
已完结/共 91 讲
第一章:Apache Flink介绍 (5讲)
第七章:Flink监控与性能优化 (5讲)
第九章:项目实战-使用Flink构建推荐系统实时数据流 (2讲)
Flink 核心技术与实战
登录|注册
留言
9
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 20 | DataStream API实践原理
00:00 / 00:00
高清
  • 高清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
01 | 课程介绍
02 | 内容综述
03 | 流处理技术概览
04 | Flink发展历史与应用场景
05 | Flink核心特性
06 | Flink集群架构
07 | Flink集群运行模式
08 | Flink集群资源管理器支持
09 | Standalone原理讲解与实操演示
10 | Flink On Yarn部署讲解
11 | Flink On Yarn实操演示
12 | Flink On Kubernetes部署讲解
13 | Flink On Kubernetes实操:Session模式
14 | Flink On Kubernetes实操:Per-job模式
15 | Flink On Kubernetes Native部署讲解
16 | Flink On Kubernetes Native实操演示
17 | Flink高可用配置原理讲解
18 | Flink高可用配置实操演示
19 | 分布式流处理模型
20 | DataStream API实践原理
21 | Flink时间概念
22 | Watermark实践原理
23 | Watermark与Window的关系
24 | Watermark Generator
25 | Windows窗口计算
26 | Window Assigner
27 | Window Trigger
28 | Window Evictors
29 | Window Function
30 | Windows多流合并
31 | Process Function应用
32 | SideOutput旁路输出
33 | Asynchronous I/O异步操作
34 | Pipeline与StreamGraph转换
35 | Flink类型系统
36 | 自定义SourceFunction
37 | 项目实战:基于DataStream API实现PV,UV统计
38 | 有状态计算概念
39 | 状态类型及应用
40 | KeyedState介绍与使用
41 | OperatorState介绍与使用
42 | BroadcastState介绍与使用
43 | Checkpoint实现原理
44 | Savepoint与Checkpoint
45 | StateBackends状态管理器
46 | State Schema Evolution
47 | State序列化与反序列化
48 | Queryable State介绍与使用
49|项目实战:实时交易反欺诈项目介绍
50|项目实战:实时交易反欺诈项目演示
51|Flink Table API/SQL介绍与使用
52|Table API/SQL核心概念
53|DataStream & DataSet 与Table相互转换
54|Table Connector介绍与使用
55|Querying Dynamic Tables
56|TimeStamp与Watermark时间属性定义
57|Query With Temporal Condition
58|Join With Dynamic Table
59|Join With Temporal Function
60|Join With Temporal Tables
61|Catalog原理与使用
62|Apache Hive集成
63|SQL Client介绍与使用
64|Flink SQL Table数据类型
65|自定义Function
66|Table Connector使用
67|自定义Connector
68|new tablesource & tablesink api
69|项目实战:基于Flink SQL实现Top10商品统计
70|Runtime整体架构
71|Flink Client实现原理
72|ResourceManager资源管理
73|Dispatcher任务分发器
74|JobGraph提交与运行(上)
75|JobGraph提交与运行(下)
76|Task执行与调度
77|Task重启和容错策略
78|集群组件RPC通信机制
79|NetworkStatck实现原理
80|Flink内存管理
81|Metric指标分类与采集
82|Flink REST API介绍与使用
83|Checkpoint监控与调优
84|反压监控与原理
85|Flink内存配置与调优
86|PyFlink实践与应用
87|Flink复杂事件处理:Complex event process
88|Alink机器学习框架介绍与使用
89|Stateful Function介绍与使用
90|实时推荐系统项目设计与实现
91|结束语
本节摘要
登录 后留言

全部留言(9)

  • 最新
  • 精选
杨杰
我想请教一个问题,虽然可能跟这节课程无关,但是一直是比较困扰我的。 一般我们用flink构建实时数据中心的时候,都难免涉及到一个从交易系统数据库进行CDC的过程,如果这个CDC的过程中间出现中断了(或者其他的数据源产生的过程由于故障中断了),那就会对整个的统计产生比较大的影响,请问在实际生产环境下是如何避免这个问题的呢?

作者回复: 需要结合CDC和Checkpoint,实现数据一致性保证,这边避免数据重复消费的问题;

2021-05-18
1
geek2020
老师,我跑了个WordCount的用例,有个疑问想请教下。flink内存中,存储的是word的具体内容,还是每轮计算之后的结果?比如我给flink的输入是"a a a b b",那flink算完后在内存中保存的是(a, 3)、(b, 2),还是保存a、a、a、b、b这个明细?另外,如果任务跑的时间久了,比如累计统计了几十亿个不同的word,会不会有内存溢出的风险?

作者回复: Flink中如果是Stream模式下,计算WordCount都是基于Window来计算的,只有在离线模式下才会统计全量数据,如果要做全量数据的WordCount可以基于状态来统计,但是不太建议,毕竟单词数量还是不小的。

2020-09-18
2
Geek_f9d390
没有开发经验,感觉听起来有点累
2020-11-19
6
7
Allan
datastream主要操作四部分:1、单条处理 2、窗口处理 3、合并处理 4、拆分处理,这样一分就容易针对每个算子属于哪一部分说明了
2021-02-23
4
tina
这里有个疑问,KeyedStream、物理分组,等等,都是什么场景下会使用呢?老师能举个例子嘛
2022-03-20
1
Geek_f8cc0e
方便加微信吗
2023-06-14
Geek_3360b0
这里感觉应该也结合经典的 ETL 进行解释下,甚至 CDC
2023-03-14
马来酸
老师我想问如果keyby两次, 然后再window()会有几个窗口? // 我想对不同船(id)的轨迹进行预测, 然后统计各个区域(area)内每一秒的轨迹信息 // 像下面这样写, 最后的窗口是只按area划分的吗, 能达到预期效果嘛? >> stream.keyby("id") // 在里面使用key state存储每条船最新的三个轨迹点 // 根据三个轨迹点 对轨迹进行预测, 输出未来10的预测轨迹 >> .richflatmap() >> .assignTime() // 修改轨迹eventTime为预测出的时间 >> .keyby("area") >> .window(1s) // 只根据区域划分窗口, 长度为1s的滚动窗口 >> .process() // 统计各个区域内某一秒时是否有距离过近的两艘船
2021-02-22
Brave chan
老师,我想问下,我的stream在按照id进行keyby后再执行多并行度的算子时可以保证同一个id的数据落算子的同一个子线程任务中吗?
2020-09-21
收起评论