10|数仓、数据湖与湖仓一体:如何做出正确的选择
曹犟

你好,我是曹犟。
第一章,我们系统地学习了大数据系统的架构设计,包括数据采集、传输、存储、计算以及云原生和信创等技术内容,了解了从技术上,应该如何根据实际的业务需求设计一个大数据系统。
然而,一个大数据应用除了架构设计、技术选型等工程问题,更重要的还是数据治理问题,也就是如何将原始数据按照业务需求进行加工和管理。同时,从实践上来说,一个大数据平台的持续治理,让系统变得持续可用,也是一个非常值得讨论的问题。
因此,在第二章“数据与平台治理”的学习中,我们将重点讨论如何让数据真正成为企业的资产,如何有效地管理和治理这些数据资产。同时,我们也会顺带讨论如何持续保障和维护一个大数据系统,让它持续可用。
我们首先要讨论的是最近几年在数据治理领域非常火的概念——数据湖与数据仓库。需要说明的是,在这节课的内容中,我们更多是从数据治理,而不是系统架构的视角来讨论数据湖与数仓,讨论如何构建一个有序、高效的数据体系。
概念澄清:数据湖 vs 数据仓库 vs 湖仓一体
相信很多同学在实际工作中都遇到过这样的困惑:数据湖、数据仓库、湖仓一体,这些概念到底有什么区别?我们应该选择哪种架构?如何避免数据湖变成数据沼泽?如何让散落在各处的数据资产能够被发现和使用?
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 数据仓库和数据湖是两种不同的数据架构,分别适用于不同的业务场景和数据治理需求。 2. 湖仓一体是一种新型的数据架构,将数据仓库和数据湖的优势融合,支持批流结合和统一的存储、元数据管理、计算引擎。 3. 选择数据架构需要综合考虑业务场景、成本预算、数据治理成熟度和团队能力等多个因素,没有最好的架构,只有最适合的架构。 4. 数据仓库适用于传统的BI报表、财务分析等场景,数据湖更适合处理大量非结构化数据和机器学习等场景,而湖仓一体适用于同时有结构化数据分析和非结构化数据处理的需求。 5. 数据湖在单位存储成本上更具有优势,但在维护成本上相对较高,而数据仓库则相反。 6. 从数据治理的视角,数据仓库、数据湖和湖仓一体的概念在实际中的应用和演变过程可以帮助理解这些架构的选择和演进。 7. 选择数据架构需要考虑业务场景的匹配度、复杂度和成本的权衡、数据治理的成熟度、团队技术栈的匹配度等因素。 8. 对于数据开发工程师和数据产品经理,需要学会评估不同业务需求与数据治理架构的匹配度,理解不同架构的适用场景。 9. 技术架构应服务于业务目标,选择合适的架构比追求最新的技术更重要,企业的数据架构通常是混合型的,需要根据实际情况灵活调整和演进。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》,新⼈⾸单¥59
《大数据应用实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论