阿里章剑锋:大数据发展趋势的8个要点(上)
阿里巴巴高级技术专家章剑锋
讲述:初明明大小:4.70M时长:05:08
大数据这个概念已经出来很多年了,但一直没有一个准确的定义。数据工程师会更多从技术和系统的角度去理解大数据,而数据分析人员会从产品的角度去理解大数据,所以数据工程师和数据分析人员所理解的大数据肯定是有差异的。阿里巴巴高级技术专家章剑锋所理解的大数据是这样的:大数据不是单一的一种技术或者产品,它是所有与数据相关的综合学科。
近日,章剑锋分析了大数据的发展现状及未来趋势,总结出大数据领域未来趋势的 8 个要点,如下。
一、大数据已经经历了 2 个重要阶段
每一项新技术都会经历一个技术成熟度曲线。从大数据的历史来看,大数据已经经历了 2 个重要阶段,即过高期望的峰值阶段和泡沫化的底谷阶段 。大数据现在正处于稳步向前发展的阶段。这可以从 Googletrend 上的 big data 曲线中得到印证。
二、数据规模会继续扩大,大数据将继续发扬光大
刚才提到,大数据已经度过了过高期望的峰值阶段和泡沫化的底谷阶段,现在正在稳步向前发展。做这样判断主要有以下 2 个原因:
其一,上游数据规模会继续增长,特别是由于 IoT 技术的发展和成熟,以及未来 5G 技术的铺开。在可预测的未来,数据规模仍将继续快速增长,这是能够带动大数据持续稳定向前发展的基本动力。
其二,下游数据产业还有很多发展的空间,还有很多数据的价值没有被挖掘出来。
虽然现在人工智能、区块链抢去了大数据的风口,也许大数据成不了未来的主角,但大数据也绝对不是跑龙套的,大数据仍将扮演一个重要而基础的角色。可以这么说,只要有数据在,大数据就永远不会过时。在大部分人的有生之年,都会见证大数据的持续向上发展。
三、数据的实时性需求将更加突出
之前大数据遇到的最大挑战在于数据规模大,经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。而大数据的实时性并不是指简单的传输数据或者处理数据的实时性,而是从端到端的实时,任何一个步骤速度慢了,就影响整个大数据系统的实时性。
所以大数据的实时性,包括以下几个方面:
快速获取和传输数据
快速计算处理数据
实时可视化数据
在线机器学习,实时更新机器学习模型
目前以 Kafka,Flink 为代表的流处理计算引擎已经为实时计算提供了坚实的底层技术支持,相信未来在实时可视化数据以及在线机器学习方面会有更多优秀的产品涌现出来。当大数据的实时性增强之后,在数据消费端会产生更多有价值的数据,从而形成一个更高效的数据闭环,促进整个数据流的良性发展。
四、大数据基础设施往云上迁移势不可挡
目前 IT 基础设施往云上迁移不再是一个还需要争论的问题,这是大势所趋。这里所说的云并不单单指公有云,也包括私有云、混合云。因为每个企业的业务属性不同,对数据安全性的要求不同,不可能把所有的大数据设施都部署在公有云上,但向云上迁移是一个未来注定的选择。
目前各大云厂商都提供了各种各样的大数据产品以满足各种用户需求,包括平台型(PAAS) 的 EMR ,服务型 (SAAS) 的数据可视化产品等等。
大数据基础设施的云化对大数据技术和产品产生也有相应的影响,大数据领域的框架和产品将更加 Cloud Native 。
计算和存储的分离。每个公有云都有自己对应的分布式存储,比如 AWS 的 S3 。 S3 在一些场合可以替换我们所熟知的 HDFS ,而且成本更低。而 S3 的物理存储并不是在 EC2 上面,对 EC2 来说, S3 是 remote storage 。所以如果你要是在 AWS 上面做大数据开发和应用,而且你的数据是在 S3 上,那么你就自然而然用到了计算和存储的分离。
拥抱容器,与 Kubernate 的整合大势所趋,在云环境中 Kubernate 基本上已经是容器资源调度的标准。
更具有弹性(Elastic)。
与云上其他产品和服务整合更加紧密。
以上是章剑锋对大数据领域趋势判断的前四个要点,后四个要点包括大数据产品全链路化、大数据技术往下游数据消费和应用端转移、底层技术的集中化和上层应用的全面开花、开源闭源并驾齐驱,我们将在下篇文章中继续与你分享,欢迎持续关注。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- patience请问下,里面提到的端到端的实时性怎么理解?
收起评论