极客视点
极客时间编辑部
极客时间编辑部
113241 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/05:30
登录|注册

推荐:数据湖正演变为下一代企业数据仓库

讲述:丁婵大小:7.54M时长:05:30
时过境迁,曾经如日中天的数据仓库现在怎么样了?是大势不减还是已经奄奄一息?SiliconAngle Wikibon 的首席分析师詹姆斯·科比拉斯(James Kobielus)认为,如果你对这个问题感到困惑,那也是情有可原的。
一方面,数据仓库的发展势头强劲。作为一个行业的长期观察者,詹姆斯目睹了这个行业不断涌现的创新活动。
这种趋势是从 10 年前“Applicance Form Factor”成为数据仓库主流开始。几年前,随着市场转向新一代的云数据仓库,这种势头进一步获得了新的动力。在过去几年,云数据仓库供应商 Snowflake 在市场上备受瞩目。
另一方面,数据仓库的市场份额被其他技术蚕食,让人觉得数据仓库在企业 IT 中的优先级地位正在下降。但实际上,大多数企业现在仍然至少需要一个数据仓库来为下游的应用程序提供服务。
詹姆斯认为数据仓库不仅在蓬勃发展,而且被认为是云计算时代的一个核心的增长前沿。他认为人们所说的“数据湖”正在迅速演变成为下一代数据仓库。数据湖是指一种包含多结构数据的系统或仓库,这些数据按照各自的格式和模式进行保存,比如大对象、文件等。
数据湖通常被作为整个企业的存储中心,包括原数据系统的原始数据和转化过的用于报表、可视化、分析和机器学习的数据。它们包含了分布式文件或对象存储、机器学习模型库、高度并行化处理集群和存储资源。
根本上说,数据仓库的存在是为了聚合、保留和管理“单一版本的事实来源”数据。这个概念与使用数据的特定应用程序或用例无关。
如果你对这个说法存有疑惑,可以看一下有关 Bill Inmon 对数据仓库定义的讨论,以及 Inmon 和 Ralph Kimball 两个框架之间的比较。数据仓库是关于基于数据驱动的决策支持,可以扩展到基于人工智能的推理。
在过去的一年中,行业里出现的一些东西表明数据仓库的角色已经发生了转变。尽管决策支持仍然是大多数数据仓库的核心应用场景,但决策自动化正在发生稳步的转变。换句话说,数据仓库现在正在为构建基于数据驱动的推理的机器学习应用程序提供支持。
新一代数据仓库实际上就是数据湖,其首要设计目标是用来管理用于构建和训练机器学习模型的数据。例如,去年 AWS 发布了 AWS Lake Formation。这个服务旨在简化和加快数据湖的构建过程。AWS Lake Formation 具备了云数据仓库的所有特征,尽管 AWS 没有把它叫做数据仓库。实际上,该服务提供了一个经典的数据仓库亚马逊 Redshift,主要面向决策支持应用程序。
AWS Lake Formation 的行为看起来很像是数据仓库。事实上,AWS 对它的描述很容易让人们将其与数据仓库做对比:“数据湖是一个集中式的安全数据库,它存储所有数据,包括原始数据和转换过的数据。数据湖可以帮你打破数据孤岛,将不同类型的分析结合起来,从中获得洞见和更好的商业决策指导。
AWS 将 AWS Lake Formation 描述为一种用于决策支持和人工智能决策自动化的超级数据仓库。AWS 还特别强调,该服务旨在管理数据。
值得一提的是,Databricks 最近发布了 Delta Lake 开源项目。Delta Lake 的目标与 AWS Lake Formation 类似:聚合、清理和管理数据湖中的数据集,以便更好地为机器学习提供支持。
Delta Lake 和 AWS Lake Formation 之间的一个关键区别是 Delta Lake 可以支持批次数据和流式数据。另外,Delta Lake 支持 ACID 事务,可以支持数百个应用程序的并发写入和读取。开发者还可以访问早期版本的数据湖,进行审计和回滚,或者重现 MLFlow 机器学习的结果。
从广泛的层面来看,Delta Lake 似乎要与已经被广泛采用的 Hive 展开竞争。Hive 极度依赖基于 HDFS 的存储,而且直到最近才开始支持 ACID 事务。一年前,Hive 3 将 ACID 事务支持带到了基于 Hadoop 的数据仓库上。Hive 3 可以为 CRUD 操作提供原子性和快照隔离。
行业最近发布的这些东西预示着数据湖将成为所有决策支持和决策自动化应用程序和所有事务数据应用程序的治理中心。要加快这种趋势,Hive 3 和 Delta Lake 等开源项目需要进一步吸引供应商和用户的眼球。
以上就是今天的内容,希望对你有所帮助。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • dreams
    和数仓相比,多了非结构化数据,而最大的问题在于如何打破数据孤岛
    1
  • somenzz
    又是营销名词,和数据仓库能有多大区别
    1
收起评论
显示
设置
留言
2
收藏
66
沉浸
阅读
分享
手机端
快捷键
回顶部