数据中台演进的四个阶段
极客时间编辑部
讲述:丁婵大小:2.81M时长:06:08
奇点云 CEO 张金银是阿里巴巴第一个数据仓库的创建者,他认为数据中台的意义在于降本增效。最近,他基于阿里巴巴的数据处理过程分享了数据中台演进的四个阶段,以下为重点内容。
阿里巴巴的数据处理经历了四个阶段,分别是:
数据库阶段,主要是 OLTP(联机事务处理)的需求;
数据仓库阶段,OLAP(联机分析处理)成为主要需求;
数据平台阶段,主要解决 BI 和报表需求的技术问题;
数据中台阶段,通过系统来对接 OLTP(事务处理)和 OLAP(报表分析)的需求,强调数据业务化的能力。
第一阶段是数据库阶段
那时淘宝还只是一个简单的网站,整个结构就是前端页面,加上后端的数据库,只是个简单的 OLTP 系统,主要就是交易的事务处理。数据量只有 GB 级别。
这里要说明的是,OLTP 的交易场景和 OLAP 的分析场景区别在于,前者强调高并发、单条数据简单提取和展示(增删改查),后者对并发的要求主要是低并发,批处理、面向分析(query+ 计算,用于制作报表)。
随着淘宝用户超过 100 万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区、哪些人等等,于是,就进入了数据处理的第二个阶段。
第二阶段是数据仓库阶段
正如前文所述,OLTP 和 OLAP 对数据存储和计算的需求非常不一样,前者处理的是结构化的交易数据,而 OLAP 对应的是互联网数据,而互联网里面数据量最大的是网页日志,90% 以上的数据都是非结构化的数据,而且数据量已经达到了 TB 的级别。
针对分析需求,就诞生了数据仓库,即 DW(DataWarehouse),解决大量数据的存储和计算需求,也就是去把非结构化的数据转化成结构化数据,存储下来。这个阶段,DW 支持的主要就是 BI 和报表需求。这时数据库也在从传统 DB 转向分布式 DB。
随着数据量越来越大,从 TB 进入了 PB 级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段。
第三阶段是数据平台阶段
这个阶段解决的还是 BI 和报表需求,但主要是在解决底层的技术问题,也就是数据库架构设计的问题。
这在数据库技术领域被概括为“Shared Everything、Shared Nothing、或 Shared Disk”,说的就是数据库架构设计本身的不同技术思路之争。
其中 Shared Disk 的代表是 Oracle RAC,问题在于,Oracle RAC 是基于 IOE 架构的,处理海量数据有天然的限制,不适合未来的发展。
而 Shared Nothing 的代表就是 Hadoop。Hadoop 的好处是要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。
用一个关键词来概括第三阶段就是“去 IOE”,建立 Shared Nothing 的海量数据处理平台来解决数据存储成本增长过快的问题。在阿里巴巴,前期是 Hadoop,后期转向自研的 ODPS。
第四阶段是数据中台阶段
这个阶段的特征是数据量的指数级增长,从 PB 迈向了 EB 级别,未来会到什么量级,我也说不清楚。
主要是因为,未来 90% 的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎 + 视频解析的引擎 + 音频解析的引擎来转换成结构化数据。5G 技术的发展,可能会进一步放大视图声数据的重要性。
线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集。线下最大量的就是视图声数据,而这些数据需要依靠 IOT 技术和算法的进步,通过智能端来自动化获取。要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其他领域的数据。
另一方面,从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。也就是说,要在系统层面能把 OLAP 和 OLTP 去做对接,这个对接不能靠人来完成,要靠智能算法。
目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在往上就是数据服务层,通过服务化 API 能够把数据平台和前台的业务层对接;数据中台里面是直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。
综上,张金银认为未来要做好数据中台,只做云或者只做端都不靠谱,需要把两者合起来做。智能端负责数据的收集,云负责数据的存储、计算、赋能。端能够丰富云,云能够赋能端。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论