大数据与AI结合,有哪些发展方向?
极客时间编辑部
讲述:初明明大小:4.90M时长:05:21
来源:InfoQ 中文站
如今,大数据成为了企业应用的关键组件,同时为机器学习 AI 技术的发展提供了强有力的保障。那么,大数据技术与 AI 技术结合的现状如何,又该走向何方?对此,PayPal 机器学习平台负责人张彭善发表了自己的看法,其重点内容如下。
1. 实时大数据技术、实时机器学习技术和应用持续发展
越来越多的企业对数据和计算的实时性有了更迫切的要求,离线数据和批处理系统的高延时已经不能满足业务发展的需求了。实时性不仅是对于数据的要求,也是对于计算以及机器学习应用等系统组件的一致要求,这也反映了从数据生成到产生价值反哺生产系统的时间延迟需要更短。
Kafka 作为异步消息系统的事实标准,基本垄断了大数据实时系统数据传递与转换的通道。Flink 在实时大数据计算领域异军突起,目前越来越多的实时应用以 Flink 为解决方案或是迁移到 Flink 上来。
Kafka 和 Flink 在自己的优势场景之外,也在日益向外拓展边界,Kafka 从消息系统到实时处理拓展,Flink 从实时处理到实时机器学习拓展,此外基于这些主流的实时系统组件,构建起实时特征计算、实时机器学习系统也越来越容易,未来会有更成熟的一体化的实时端到端的解决方案和产品出现。
2. 大数据底层技术基本格局已定,未来主要是大数据上层应用的发展
早期 Hadoop 占据批处理计算的统治地位,目前主流已经是 Spark 的批处理应用,Hadoop 已经下沉到底层 HDFS 以及为基于其上的 HBase、Spark、Flink 等提供服务。Kafka 在异步消息系统的统治地位短期也难以被撼动,基本上主流的实时计算框架或者快速数据流转都是基于 Kafka 构建。Flink 在实时计算领域异军突起,有一统此领域的趋势。可以看到整体大数据技术基本格局已定,整个技术栈丰富且日趋成熟。
随着业务的需求与发展,大数据上层应用会是一个发展趋势。未来会有更多高效的数据分析平台、可视化数据产品、端到端的可视化 AI 构建产品等上层应用出现。
3. 存储与计算分离,云计算推动 AI 应用异构平台的发展
Hadoop 的一大特性是计算和数据的本地化,即把计算放到数据所在的机器运行。随着数据量级的增长以及网络带宽的提高,计算与存储分离的系统越来越多且不会成为计算的瓶颈。将计算和存储分离的另一个好处是可以更好地管控、隔离计算和存储资源,提高整个平台的稳定性。
早期的大数据平台主要是商业机器为主,辅以强大的软件容错功能,并没有稳定性的损失。在存储方面,SSD 价格持续走低,其上的应用和框架也越来越多。在计算方面,GPU 用以提高深度学习等计算密集型应用的计算效率,CPU 和 GPU 混布已经成为一个趋势。云计算技术尤其是容器化技术使得各种异构存储和计算的融合成为可能,进而提高整个数据中心资源的使用效率。
4. AI 平台与大数据平台融合构建端到端的整体解决方案
机器学习 / AI 的发展推动了大数据平台和 AI 平台的融合。在以前,人们需要在大数据平台构建和实验数据特征,然后按照机器学习训练的要求统一处理数据,再上传到 AI 训练平台训练模型。经过反复超参数调节和特征工程工作,训练好模型再发布到线上系统做实时的预测和决策,进而支撑各种业务如广告、推荐、风控等场景。
可见整个流程需要各种平台之间的切换和数据传递,甚至是每一种数据处理、每一种实验、每一个数据问题都可能需要用户在平台之间反复与切换,这不仅导致 AI 应用构建效率低,还满足不了业务对 AI 应用上线时间的要求。
当下,构建整个端到端的大数据机器学习平台已经成为了迫切需求用以解决上述问题,目前,各大公司都在或者已经成功将大数据、机器学习、线上服务融合到一个端到端的平台。
结语
总的来说,大数据经历了较长时间的发展,目前已经进入了稳步发展时期。主流的大数据计算框架已经成型,越来越多基于这些主流框架的精细化上层应用会成为一个趋势。此外机器学习、AI 的持续发展也在推动大数据的规模化、实时性以及平台化的发展。越来越多的企业构建起端到端的大数据机器学习平台以提高大数据 AI 落地效率,各大云厂商更是构建出此类一体化产品希望能够收获更多的客户和收益。
以上就是今天的内容,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 小斧1. 实时大数据技术、实时机器学习技术和应用持续发展 2. 大数据底层技术基本格局已定,未来主要是大数据上层应用的发展 3. 存储与计算分离,云计算推动 AI 应用异构平台的发展 4. AI 平台与大数据平台融合构建端到端的整体解决方案 大数据经历了较长时间的发展,目前已经进入了稳步发展时期。主流的大数据计算框架已经成型,越来越多基于这些主流框架的精细化上层应用会成为一个趋势。此外机器学习、AI 的持续发展也在推动大数据的规模化、实时性以及平台化的发展。越来越多的企业构建起端到端的大数据机器学习平台以提高大数据 AI 落地效率,各大云厂商更是构建出此类一体化产品希望能够收获更多的客户和收益。2
收起评论