近日，LinkedIn 又向 Apache 基金会贡献了一个新的开源项目：Apache Gobblin。Gobblin 是一套分布式数据集成框架，旨在简化大数据集成工作中的各类常见任务，具体包括数据流与批量生态系统的提取、复制、组织与生命周期管理。
Gobblin 的发展速度非常惊人，自 2014 年 12 月问世以来，它一直在开源世界中快速消化海量的大数据资源。目前，Gobblin 已经由原本主要立足 Hadoop 之上，以 MapReduce 模式运行的离线数据接收框架，逐步转化为一套全面而强大的生态系统，而且功能涵盖了执行环境、数据速度、规模化、连接器以及其它生态系统增强领域中的不同维度。
Apache 软件基金会（ASF）是目前全球最具影响力的开源机构之一，Apache 项目支持着超过 2 亿个网站，占互联网网站总数的一半，并成为世界上众多最具价值企业的技术支柱。Gobblin 已经陆续得到 LinkedIn、苹果、Paypal 等企业以及 CERN、Sandia 国家实验室等研究机构的广泛采用。
此前，Gobblin 已经在内部与外部社区的共同推动下迎来了一系列重大变化。而在下一阶段，Gobblin 中将会出现以下令人兴奋的增强功能，包括：
多执行模式:：Gobblin 现在能够以 Embedded、CLI、Standalone、MapReduce 以及 Cluster 等多种模式运行。
流与批量处理支持:：Gobblin 的核心引擎现在支持批量（有限）以及流（无限）数据处理能力。在批量处理模式下，能够配合独立、集群、MapReduce、Hive 以及 Dali 实现运作，并计划在今年之内实现对 Spark 的支持。同样的，Gobblin 还将进一步扩展原生流功能，包括在今年之内对接 Samza 与 Brooklin 等系统。
全局限制： Gobblin 现在支持在任意 Gobblin 执行模式下实现资源的全局限制，例如 API 配额。这是一项通用性的基础设施功能，适用于任何分布式系统。
Gobblin 即服务： 此举旨在构建起一套数据管理 PaaS 方案，可以对服务背后的民间构数据移动及部署处理（无论是否基于 Gobblin）进行封装与统一化处理。
另外，Apache Gobblin 社区成员在 Gobblin 生态系统当中提出、建立并启动了一系列关键性发展成果，具体包括：
Kafka 10 支持能力
状态存储强化
AWS 模式增强与自动扩展能力
Mesos 支持提议
Gobblin 即服务增强提议
多款新型连接器
管理员 UI 稳定性与增强
未来，开发人员将致力于继续推动 Gobblin 项目的快速发展，同时帮助社区持续发展并适应“Apache 道路”。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部