Apache新成员:Apache Gobblin
极客时间编辑部
讲述:丁婵大小:1.46M时长:03:12
近日,LinkedIn 又向 Apache 基金会贡献了一个新的开源项目:Apache Gobblin。Gobblin 是一套分布式数据集成框架,旨在简化大数据集成工作中的各类常见任务,具体包括数据流与批量生态系统的提取、复制、组织与生命周期管理。
Gobblin 的发展速度非常惊人,自 2014 年 12 月问世以来,它一直在开源世界中快速消化海量的大数据资源。目前,Gobblin 已经由原本主要立足 Hadoop 之上,以 MapReduce 模式运行的离线数据接收框架,逐步转化为一套全面而强大的生态系统,而且功能涵盖了执行环境、数据速度、规模化、连接器以及其它生态系统增强领域中的不同维度。
Apache 软件基金会(ASF)是目前全球最具影响力的开源机构之一,Apache 项目支持着超过 2 亿个网站,占互联网网站总数的一半,并成为世界上众多最具价值企业的技术支柱。Gobblin 已经陆续得到 LinkedIn、苹果、Paypal 等企业以及 CERN、Sandia 国家实验室等研究机构的广泛采用。
此前,Gobblin 已经在内部与外部社区的共同推动下迎来了一系列重大变化。而在下一阶段,Gobblin 中将会出现以下令人兴奋的增强功能,包括:
多执行模式::Gobblin 现在能够以 Embedded、CLI、Standalone、MapReduce 以及 Cluster 等多种模式运行。
流与批量处理支持::Gobblin 的核心引擎现在支持批量(有限)以及流(无限)数据处理能力。在批量处理模式下,能够配合独立、集群、MapReduce、Hive 以及 Dali 实现运作,并计划在今年之内实现对 Spark 的支持。同样的,Gobblin 还将进一步扩展原生流功能,包括在今年之内对接 Samza 与 Brooklin 等系统。
全局限制: Gobblin 现在支持在任意 Gobblin 执行模式下实现资源的全局限制,例如 API 配额。这是一项通用性的基础设施功能,适用于任何分布式系统。
Gobblin 即服务: 此举旨在构建起一套数据管理 PaaS 方案,可以对服务背后的民间构数据移动及部署处理(无论是否基于 Gobblin)进行封装与统一化处理。
另外,Apache Gobblin 社区成员在 Gobblin 生态系统当中提出、建立并启动了一系列关键性发展成果,具体包括:
Kafka 10 支持能力
状态存储强化
AWS 模式增强与自动扩展能力
Mesos 支持提议
Gobblin 即服务增强提议
多款新型连接器
管理员 UI 稳定性与增强
未来,开发人员将致力于继续推动 Gobblin 项目的快速发展,同时帮助社区持续发展并适应“Apache 道路”。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论