观点:应该关注的四个数据科学改进方向
极客时间编辑部
讲述:丁婵大小:2.59M时长:05:40
近来,软件工程师克里斯·里科米尼(Chris Riccomini)一直在思考过去几年中他们在数据工程方面取得的进展,以及这个领域接下来的发展方向,并表示他最希望在未来几年能够看到以下四个方面的改进:
及时性:从批量到实时。
连通性:从一对一定制集成到多对多。
集中化:从集中托管到自助服务工具。
自动化:从手动管理到自动化工具。
从批量到实时
过去,数据管道与数据处理都基于批处理机制。数据以批量 ETL 快照的形式在不同系统之间传输,数据按定期方式接受处理,并由作业调度程序负责管理。如今,正一步步转向实时数据管道与实时数据处理系统。
Debezium 等新型数据捕捉系统以及 Kafka 当中强大的连接器生态系统,使得实时数据管道成为可能,这意味着提取、转换以及加载都能够实时发生。预计未来随着实时类工具的不断成熟,加上云主机的持续增长,实时管道会越来越受欢迎。
连通性
以往,将上游数据源接入数据仓库,意味着为系统之间的各个一对一连接添加新的定制化集成方案。如今,Confluent、Kafka Connect 以及连接器生态系统的推出,意味着人们能够利用多种现成连接器方案接入 Kafka 数据管道。
这种架构方法可能会逐渐开始落地,使用这种模式还将获得细粒度数据系统。一旦能够以低成本方式将新系统添加至管道当中,那么生态系统内新增专用系统的价值就将超过相关支出。因此,未来将有更多用户开始使用小众数据处理系统。
云服务的普及也为连接问题带来了影响。目前,还无法利用 AWS 控制台中的几个简单勾选框就搞定数据集成,而且在短时间内,各大云服务供应商的系统之间也很难实现完全集成。相比之下,建立一套点击式用户界面,并借此统一管理各家云服务供应商的产品倒还比较靠谱。
综上,克里斯认为基于云的第三方解决方案(例如 Stitch)仍将具有价值。这也意味着对于有能力构建并加以运营的高水平用户而言,前文中提到的实时 Kafka 架构仍将是最成熟的解决方案。
自动化与权力下放
最后,作为清单中的后两项,自动化与集中化可以说是齐头并进。大多数组织都拥有一支数据工程与 / 或数据仓库团队,专门负责管理数据管道与数据仓库。当上峰的指令下达至这些团队时,他们需要通过技术与政策这两项标准对请求做出评估。
克里斯表示,集中式团队当中往往会包含部分自动化方法,但主要集中在技术自动化层面。但政策方面还没有实现自动化,然而,随着 GDPR 及 CCPA 等监管要求的出台,这方面工作正变得愈发重要。把政府监管同远超传统软件企业的技术扩展速度结合起来,特别是在医疗与金融等敏感领域,可以想见自动化工作将成为政策流程中极为关键甚至不可或缺的一环。
政策自动化的实质,在于关注不太成熟的数据生态系统当中那些经常被忽视的领域。Lyft Amundsen、Apache Ranger 以及谷歌 Data Catalog 等工具链将成为必要选项,有助于在审计、DLP、敏感数据检测、保留执行以及访问控制管理等政策的实施层面建立起全面的自动化体系。
随着自动化在技术与政策两大领域的逐步成熟,接下来需要回答的问题自然是:为什么需要一支单独的团队来管理这方面任务?如果说工具自己就能实施政策方针并自动操作数据管道,为什么不授权组织内的相关团队直接管理自己的数据管道与数据仓库?
在数据管道方面,权力下放意味着任何团队都可以自主决定如何调整现有数据管道,前提是符合自动实施的技术与政策指导原则。在数据仓库当中,团队可以根据需求创建数据库、数据集、数据市场以及数据存储库等。这会带来大量复杂性、混乱且重复的元素。正因如此,以上述工具为代表的管理方案才会成为权力下放的重要先决条件。
由于管理高复杂度数据生态系统会带来认知负担,因此唯一具备可扩展性的有效方法就是推动自动化加权力下放。在一定程度上,这可能更像是过去十年中在应用层面 CI/CD 以及从整体式到微服务架构的迁移。
以上就是今天的内容,这些需求都有望给组织整体带来巨大的效率提升,并建立起更严格的数据管理实践。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论