极客视点
极客时间编辑部
极客时间编辑部
113241 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/06:08
登录|注册

数据中台演进的四个阶段

讲述:丁婵大小:2.81M时长:06:08
奇点云 CEO 张金银是阿里巴巴第一个数据仓库的创建者,他认为数据中台的意义在于降本增效。最近,他基于阿里巴巴的数据处理过程分享了数据中台演进的四个阶段,以下为重点内容。
阿里巴巴的数据处理经历了四个阶段,分别是:
数据库阶段,主要是 OLTP(联机事务处理)的需求;
数据仓库阶段,OLAP(联机分析处理)成为主要需求;
数据平台阶段,主要解决 BI 和报表需求的技术问题;
数据中台阶段,通过系统来对接 OLTP(事务处理)和 OLAP(报表分析)的需求,强调数据业务化的能力。

第一阶段是数据库阶段

那时淘宝还只是一个简单的网站,整个结构就是前端页面,加上后端的数据库,只是个简单的 OLTP 系统,主要就是交易的事务处理。数据量只有 GB 级别。
这里要说明的是,OLTP 的交易场景和 OLAP 的分析场景区别在于,前者强调高并发、单条数据简单提取和展示(增删改查),后者对并发的要求主要是低并发,批处理、面向分析(query+ 计算,用于制作报表)。
随着淘宝用户超过 100 万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区、哪些人等等,于是,就进入了数据处理的第二个阶段。

第二阶段是数据仓库阶段

正如前文所述,OLTP 和 OLAP 对数据存储和计算的需求非常不一样,前者处理的是结构化的交易数据,而 OLAP 对应的是互联网数据,而互联网里面数据量最大的是网页日志,90% 以上的数据都是非结构化的数据,而且数据量已经达到了 TB 的级别。
针对分析需求,就诞生了数据仓库,即 DW(DataWarehouse),解决大量数据的存储和计算需求,也就是去把非结构化的数据转化成结构化数据,存储下来。这个阶段,DW 支持的主要就是 BI 和报表需求。这时数据库也在从传统 DB 转向分布式 DB。
随着数据量越来越大,从 TB 进入了 PB 级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段。

第三阶段是数据平台阶段

这个阶段解决的还是 BI 和报表需求,但主要是在解决底层的技术问题,也就是数据库架构设计的问题。
这在数据库技术领域被概括为“Shared Everything、Shared Nothing、或 Shared Disk”,说的就是数据库架构设计本身的不同技术思路之争。
其中 Shared Disk 的代表是 Oracle RAC,问题在于,Oracle RAC 是基于 IOE 架构的,处理海量数据有天然的限制,不适合未来的发展。
而 Shared Nothing 的代表就是 Hadoop。Hadoop 的好处是要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。
用一个关键词来概括第三阶段就是“去 IOE”,建立 Shared Nothing 的海量数据处理平台来解决数据存储成本增长过快的问题。在阿里巴巴,前期是 Hadoop,后期转向自研的 ODPS。

第四阶段是数据中台阶段

这个阶段的特征是数据量的指数级增长,从 PB 迈向了 EB 级别,未来会到什么量级,我也说不清楚。
主要是因为,未来 90% 的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎 + 视频解析的引擎 + 音频解析的引擎来转换成结构化数据。5G 技术的发展,可能会进一步放大视图声数据的重要性。
线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集。线下最大量的就是视图声数据,而这些数据需要依靠 IOT 技术和算法的进步,通过智能端来自动化获取。要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其他领域的数据。
另一方面,从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。也就是说,要在系统层面能把 OLAP 和 OLTP 去做对接,这个对接不能靠人来完成,要靠智能算法。
目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在往上就是数据服务层,通过服务化 API 能够把数据平台和前台的业务层对接;数据中台里面是直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。
综上,张金银认为未来要做好数据中台,只做云或者只做端都不靠谱,需要把两者合起来做。智能端负责数据的收集,云负责数据的存储、计算、赋能。端能够丰富云,云能够赋能端。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
第一阶段是数据库阶段
第二阶段是数据仓库阶段
第三阶段是数据平台阶段
第四阶段是数据中台阶段
显示
设置
留言
收藏
99+
沉浸
阅读
分享
手机端
快捷键
回顶部