39 | 从SQL到Streaming SQL：突破静态数据查询的次元

蔡元楠



该思维导图由 AI 生成，仅供参考

你好，我是蔡元楠。
今天我要与你分享的主题是“从 SQL 到 Streaming SQL：突破静态数据查询的次元”。
在前面的章节中，我们介绍了一些流数据处理相关的知识和技术，比如 Apache Spark 的流处理模块——Spark Streaming 和 Structured Streaming，以及 Apache Beam 中的窗口处理。相信你对流处理的重要性和一些基本手段都有所了解了。
流处理之所以重要，是因为现在是个数据爆炸的时代，大部分数据源是每时每刻都在更新的，数据处理系统对时效性的要求都很高。作为当代和未来的数据处理架构师，我们势必要深刻掌握流数据处理的技能。
“批”“流”两手抓，两手都要硬。
你还记得，我在第 15 讲中介绍过的 Spark SQL 吗？它最大的优点就是 DataFrame/DataSet 是高级 API，提供类似于 SQL 的 query 接口，方便熟悉关系型数据库的开发人员使用。
当说到批处理的时候，我们第一个想到的工具就是 SQL，因为基本上每个数据从业者都懂，而且它的语法简单易懂，方便使用。那么，你也能很自然地联想到，如果在流处理的世界中也可以用 SQL，或者相似的语言，那真是太棒了。
这样的思想在第 17 讲中我们曾经提到过。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

从SQL到Streaming SQL的技术演进，突破了静态数据查询的次元。流处理的重要性和基本手段被强调，Streaming SQL的概念和优势得到详细介绍。Streaming SQL是一种用于处理无边界流数据的类SQL语言，具有简单易学、高效快速、代码简洁等优点。文章还详细介绍了Streaming SQL中的重要操作，包括窗口、联结和模式。窗口用于对流数据进行时间划分和聚合统计，联结用于连接不同流中的数据，而模式则用于检测数据的先后顺序，对于流数据处理中的模式匹配具有重要意义。Streaming SQL的发展前景值得期待，它大大降低了开发人员实现流处理的难度，让流处理变得就像写SQL查询语句一样简单。欢迎留言与我一起讨论Streaming SQL的发展前景。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大规模数据处理实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(7)

最新
精选

Hobbin
当前复杂的逻辑，Streaming SQL的支持还是比较有限的。请教一下，Streaming SQL有没有可能完全替代API开发方式呢？
2019-07-24

5
小火柴
现实开发中会遇到比如有的客户端网络条件不是很好，不能实时发送数据，会把数据存在本地等网络良好时候再发送给服务器。这样的情况实时处理如果用水印的话就会丢失很多数据
2019-10-13

2
Junjie.M
请问beam有统一的streaming sql可以转换成其他runner运行吗
2020-04-11

1
Mr.Tree
感觉sql是最好用的数据处理语言，在数据处理这块儿会不会sql实现统一化
2023-01-02归属地：四川


piboye
sql有没可能统一大数据的处理？
2021-12-28


正向成长
Streaming SQL从快速入手实操的角度来看有很大的意义，SQL语句的优化查询，尤其是随着数据规模日益庞大，性能应该是比较大的瓶颈吧，分布式系统存储，事务的实现？
2020-11-07


Chloe
谢谢老师的讲解，深受启发。请问Siddihi Streaming SQL是目前比较推荐的Streaming SQL吗？老师您觉得这种streaming SQL的发展前景如何？
2020-02-18



收起评论