093 | Dremio:在Drill和Arrow上的大数据公司
徐飞
该思维导图由 AI 生成,仅供参考
今天这篇文章,我们来讲讲一个非常年轻的公司 Dremio 的故事。这个故事涉及了两个 Apache 开源项目 Drill 和 Arrow,和一家 Hadoop 发行商 MapR。
我们先从 MapR 公司开始讲起,MapR 在 2009 年成立,发展一直不错,在 CTO 的带领下,公司出品了一个自己的文件系统,取代了 HDFS,同时,它的 Hadoop 发行版也取得了不俗的成绩。
托马尔 · 希兰(Tomer Shiran)和雅克 · 纳杜(Jacques Nadeau),这两位都是 MapR 公司的核心员工。让我们记住这两个人的名字,因为他们与我们接下来的故事息息相关。托马尔是 MapR 的第一位产品经理,负责整个产品线的开发。雅克则是 Apache Drill 项目和 Apache Arrow 项目的主要负责人。
第一个项目:Apache Drill
让我们把时间倒回到 2013 年。当时 Hive 已经存在,但是很慢很不好用。谷歌的 Dremel 刚出来没多久,就掀起了交互式查询的风潮,随之而来的是 Cloudera 开始了它的 Impala 引擎的计划;而 MapR 也决定做一款查询引擎,自己主导开源项目,这就是后来的 Apache Drill。
当时筹建这个项目的人,是托马尔,而具体负责干事情的人,是雅克。我之所以知道这件事情的详细情况,是因为 2013 年的时候,这两位打电话给我,希望我加盟这个尚未展开的项目。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Dremio:从Apache开源项目到创业公司的成长之路 Dremio是一个年轻的公司,其故事涉及了两个Apache开源项目Drill和Arrow,以及Hadoop发行商MapR。MapR公司的核心员工托马尔和雅克在Apache Drill项目上投入了很多年,但由于Drill在处理大规模数据时效率不高,他们决定构建另一个项目:Apache Arrow。Arrow是一个内存数据结构,旨在实现不同数据源之间的快速高效数据交换。 随着MapR公司出现问题,托马尔和雅克离开创立了Dremio公司。Dremio的核心产品是一个连接不同数据源进行数据分析的软件,它使用Apache Arrow格式统一处理数据,从而提高了效率。然而,与Drill相比,Dremio连接的数据源较少,且仅支持输出Apache Arrow格式的数据源。此外,Dremio还进行了预先计算数据以提高查询效率的优化。 尽管Dremio借鉴了Apache Drill的连接思想,并通过Apache Arrow提高了系统效率,但其面临着一些挑战。例如,Dremio在支持一些常见的数据源方面仍存在问题,这可能限制了其在传统企业中的应用。因此,Dremio在开源产品和Hadoop生态圈可能有一席之地,但在传统企业中的通用性仍有待观察。 总的来说,Dremio的发展道路充满挑战,但其折中的方式在技术上具有一定的创新性和前瞻性。然而,要想在竞争激烈的数据分析市场中生存下来,Dremio需要解决如何支持更多常见数据源的问题。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《技术与商业案例解读》,新⼈⾸单¥68
《技术与商业案例解读》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- MaoDremio的低版本开源了,高级的一些功能是付费的。现在支持的数据源也多了,可能因为比较新,连接器识别元数据还是会有各种各样的问题。 我觉得Dremio最大的优势在于基于明细数据直接进行分析,这个对数据使用方非常友好。2022-01-17
收起评论