极客视点
极客时间编辑部
极客时间编辑部
113241 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/04:54
登录|注册

数据湖,大数据的下一个变革

讲述:丁婵大小:2.25M时长:04:54
让数据产生价值才叫成功。早期有不少公司引入了 Hadoop,将企业的各种结构化、非结构化数据加载至 Hadoop 环境当中,想让自己的数据发挥更大的价值,但这并不容易。2016 年,Gartner 公司估计有 60% 的大数据项目遭遇失败。一年之后,他们表示 60% 的估计太过保守,这个数字应该是 85%。
近日,腾讯大数据海量存储与数据湖研发负责人堵俊平在接受 InfoQ 采访时称,大数据存储已经走到了一个新的阶段,肯定会有新的革命性技术来替换它,而数据湖就是大数据的下一个变革。
纵观大数据的发展历程,前十多年,大数据的发展主要集中在技术框架上,社区出现了一系列优秀的作品,如最开始引领大数据风潮的 Hadoop,到计算引擎 Spark、Flink 、消息中间件 Kafka 以及资源调度器 Kubernetes 等等,大数据领域的技术框架已经比较成熟。
通过开源架构策略,现代化数字企业逐渐意识到自己的目标是通过业务实现数据的价值化,未来将会把更多的精力投向研究底层数据消费和上层的产品应用。
不久前,谷歌收购数据分析公司 Looker、Salesforce 收购 BI 企业 Tableau 以及 Cloudera 收购商业智能实时分析厂商 Arcadia Data 等收购案例都说明企业的目标开始转向解读所积累的海量数据。
赋能业务,快速应对挑战,正是数据湖所能提供的。数据湖的概念,最早是在 2011 年由 Dan Woods 提出,”是一个集中化存储海量的、多个来源多种类型的数据,并可以对数据进行快速加工、分析的平台,本质上是一套先进的企业数据架构“。例如在社交广告中的用户画像,需要行为日志等非结构化数据,经过层层数据加工形成业务价值,以后也会延伸到图像、语音等类型。这些就是数据湖能提供的特别优势。
关于数据湖的定义,其实业界有较多争议。狭义的数据湖指的是数据湖存储,即可以存放海量数据(各种格式)的地方。广义的数据湖除了数据湖存储,还包括数据湖的管理和分析,即提供一整套工具,提供数据目录(Data Catalog)服务以及统一的数据访问。
堵俊平认为,当下业界趋势是从传统的数据仓库向数据湖的方向演进。相比于传统数仓体系或者是云原生数仓等新型体系的各种固有限制,如模型范式的要求、业务不能随便变迁等,数据湖可以轻松、灵活地接入数据,也能更快速地适应上层数据应用的变化。
数据湖的三个层次,分为数据库等底层存储、元数据管理、跨不同数据源的 SQL 引擎。数据湖也是数据仓库发展的高级阶段,对于数仓来说,数据湖有很多扩展能力。数仓解决的核心问题,数据湖也解决了一遍,而且涉及面更广。
比如说,数据库的数据有对齐的要求,数据库是面向应用的,每个应用可能需要一个数据库。如果一个公司有几十个应用,就会有几十个数据库。几十个数据库之间怎么去连接分析、统一分析?是没有办法的。随后就由数据库发展成了一个数据仓库,数据仓库不面向任何应用。但是,它对接到数据库,如果需要每天定时有些 ETL 的批处理的任务,将不同应用和数据汇总起来,按照一些范式模型去做连接分析,得到一定时间段的总体数据视图。这个前提是很多数据库要给数仓供应数据。这些供应数据是数据库是表格化、规范化的方式。
但现在互联网企业的应用,大部分数据不再来源于数据库了,它可能来源于日志,比如用户的行为日志,或机器的日志,可能来源于各种各样的非格式化的数据。这时就必须要用数据湖这种方式。可以跨越之前数仓建模种种的约束,针对业务需求去做联合分析和查询。对上层数据应用所提供的接口更像是一个统一的界面,此外,数据湖屏蔽了底层异构数据源的差异,这也是大数据发展未来的重要趋势。
总而言之,大数据存储已经走到了一个新的阶段,从数据湖的发展趋势及其优势可以预测,数据湖将会成为大数据的下一个变革。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 厉害了我的国
    炒作新概念
    5
  • Sohnny
    就一个数据仓库的概念非得换个叫法
    1
  • leslie
    是啊:数据存储近些年随着网络的速度的急速发展以及内存的廉价、GPU的高速发展,完全是10-20年就完全是另外一种方式。 数据湖这个名词个人不苟同:就像许式伟曾经说过现在用关系型和非关系型数据库去定义数据库已经不准确-中间件存储更合理。
    1
  • 你好
    最近被这些概念折腾的醉了,换个人换种说法。唯一不变的是这个思想。这个思想也是明知故问的东西。尤其是经过众人解读,约说越乱。说的越深奥越表明你牛逼。本人很鄙视这类人。所以我也认为是炒作概念。
  • Geek_70f7a8
    谁说数仓不能接日志
收起评论
显示
设置
留言
5
收藏
70
沉浸
阅读
分享
手机端
快捷键
回顶部