极客视点
极客时间编辑部
极客时间编辑部
113245 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/05:48
登录|注册

为什么需要数据仓库?

讲述:丁婵大小:7.96M时长:05:48
你好,欢迎收听极客视点。
“数据仓库”这个词在数据分析领域被广泛使用,但对于刚接触数据分析的人来说,仍然会经常问到这个问题,就是为什么需要以及什么时候需要数据仓库。此前,企业家安东尼·通度(Anthony Thong Do)发文回答了上述问题,以下是 InfoQ 的翻译内容。

什么是数据仓库?

数据仓库是一种分析数据库,用于存储和处理数据,以便对数据进行分析。数据仓库有两个主要功能:存储分析数据和处理分析数据。
首先,如果多个业务数据位于不同的数据源,就无法轻易地将它们组合在一起。其次,你的数据源系统不适合用来运行大量的数据分析,这样做可能会危及业务运行,因为它会给系统带来很重的负载。
数据仓库是分析管道的核心,它有三个主要作用:
存储:在合并 (提取和加载) 步骤,数据仓库将接收和存储来自多个数据源的数据。
处理:在处理 (转换和建模) 步骤,数据仓库将处理大部分 (或全部) 由转换步骤生成的密集处理工作负载。
访问:在生成报告 (可视化和交付) 步骤,首先需要在数据仓库中收集报告,然后将其可视化并交付给最终用户。
目前,大多数数据仓库使用 SQL 作为主要的查询语言。

什么时候需要构建数据仓库?

简单地说,这取决于公司所处的阶段、所拥有的数据量和预算,等等。
在早期阶段,你可能不需要数据仓库,而是直接使用业务智能 (BI) 工具连接到生产数据库。如果你仍然不确定数据仓库是否适合你的公司,请考虑以下几点:
第一,你是否需要分析来自不同数据源的数据?
对于这些分析,如果数据都位于一个中心位置,就会容易得多。
第二,是否需要将分析数据与事务数据分离?
你的事务系统不适合用来进行数据分析,因此,如果你在应用程序中收集了活动日志或其他可能有用的信息,那么将这些数据存储到应用程序的数据库中,并让分析师直接在生产数据库上进行数据分析可能不是一个好主意。
第三,原始数据源适合用来查询吗?
例如,绝大多数 BI 工具不能很好地与 NoSQL 数据存储如 MongoDB 搭在一起使用。也就是说,在后端使用 MongoDB 的应用程序需要将数据传输到数据仓库,数据分析人员才能够有效地使用它们。
第四,是否希望提高数据分析的查询性能?
如果事务数据有数十万行,那么创建汇总表可能是一个好主意,它会将数据聚合成容易查询的表单。如果不这样做,查询会非常慢,而且会给数据库带来不必要的负担。
如果你对上述任意一个问题的回答是“是”,那么你很可能需要一个数据仓库。

数据仓库与普通 SQL 数据库有什么不一样?

“数据仓库不是像关系数据库一样,存储数据,然后对数据进行分析吗?难道我就不能使用 MySQL、PostgreSQL、MSSQL 或 Oracle 作为数据仓库吗?”
简单地说:可以。但细说起来:这要视情况而定。
首先,理解事务工作负载与分析工作负载之间的差异是非常重要的。
事务工作负载是指普通业务应用程序的查询工作负载。当访问者在 Web 应用程序中加载一个产品页面时,将向数据库发送一个查询,获取产品信息,并将结果返回给应用程序。
以下是事务工作负载的几个常见属性:
每次查询通常返回一条记录或少量记录。
事务工作负载通常包含运行时间非常短 (少于 1 秒) 的简单查询。
在任意时刻都有大量的并发查询,这取决于应用程序的并发访问者数量。对于大型网站来说,这个数字可能是成千上万或数十万。
通常对全数据记录感兴趣 (例如产品表中的每一列)。
其次,分析工作负载是指用于实现分析目的的工作负载。在生成一个数据报告时,一个查询将被发送给数据库,计算结果,然后将结果显示给最终用户。
分析工作负载具有以下属性:
每个查询通常会扫描表中的大量数据行。
每个查询都是重量级的,并且需要很长时间 (几分钟,甚至几小时) 才能完成。
并发查询并不多,主要由使用分析系统的报告或内部人员数量决定。
通常只对几列数据感兴趣。
事务工作负载有很多简单的查询,而分析工作负载有一些重量级的查询。
由于上述两种工作负载之间的巨大差异,这两种工作负载的数据库底层后端设计也是非常不一样的。事务数据库的优化目标是高并发的快速短查询,而分析数据库的优化目标是长时间运行的资源密集型查询。
简单来说,MySQL、PostgreSQL、MSSQL 和 Oracle 数据库主要用于处理事务工作负载,而数据仓库用于处理分析工作负载。
如果刚开始时只有少量的数据和分析用例,选择一个普通的 SQL 数据库作为数据仓库是可以的。如果有很多数据,仍然可以这样做,但需要进行适当的调优和配置。
以上就是今天的内容,希望对你有所帮助。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
什么是数据仓库?
什么时候需要构建数据仓库?
数据仓库与普通 SQL 数据库有什么不一样?
显示
设置
留言
收藏
85
沉浸
阅读
分享
手机端
快捷键
回顶部