Apache Arrow被业界大量采用的原因
极客时间编辑部
讲述:杜力大小:2.17M时长:02:22
最近,Apache 软件基金会(Apache Software Foundation,简称 ASF)宣布了大数据列式内存数据平台 Apache Arrow 的发展势头。
Arrow 是用于处理内存数据的跨语言开发平台。它为平面和分层数据指定了独立于语言的标准化列式内存格式,可以在现代硬件上进行高效的分析操作。目前,Arrow 已经被数十个开源和商业技术方案所采用,在作为 Apache 顶级项目的前三年月下载量超过 1 百万。
自从 2016 年 1 月该项目成立以来,Arrow 已经迅速成长为在内存中表示和处理分析数据的事实标准,把分析处理和交换的速度提高了 100 多倍。
Arrow 副总裁贾可·纳杜(Jacques Nadeau)表示,在 Arrow 成为顶级项目时,他们预测世界上大多数数据将在未来 10 年中通过 Arrow 进行处理。仅仅过了 3 年,Arrow 就在各种分析、机器学习和人工智能工作负载中出现了大量的业界采用,并实现了价值增长。
据介绍,Arrow 的亮点包括:
业界采用:超过 20 种重要技术采用 Arrow 来加快内存分析。
数百万次下载:众多其他技术对 Arrow 的采用和集成带来了超过 1 百万次的月下载量。
新语言支持:作为跨语言开发平台,支持多种编程语言是重中之重。Arrow 已经从支持一种语言发展到如今能支持 11 种不同的语言,其中包括 C++、Java、Python、R、C#、JavaScrip 和 Ruby 等。
无缝数据格式支持:Arrow 支持不同数据类型,无论是简单类型还是嵌套类型,只要它们存在于内存中,如常规的系统 RAM、内存映射文件或 GPU 内存。此外,它还可以从流行的存储格式(如 Apache Parquet、CSV 文件、Apache ORC、JSON,等等)中摄取数据。
主要代码捐赠:Arrow 的新功能和扩展功能要归功于部分代码和组件的捐赠。
社区和捐献者的增长:在过去 12 个月中,近 300 位个人贡献者提交了 3 千多次代码,使 Arrow 代码库增加了 30 万行代码。Arrow 社区每个月有约 10 个新贡献者加入。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论