技术与商业案例解读
徐飞
前华为云资深总监,大数据专家
36771 人已学习
新⼈⾸单¥68
登录后,你可以任选6讲全文学习
课程目录
已完结/共 164 讲
技术与商业案例解读
15
15
1.0x
00:00/00:00
登录|注册

093 | Dremio:在Drill和Arrow上的大数据公司

需要解决支持常见数据源的问题
需要解决对传统企业的适用性问题
面临数据源限制和空间与效率平衡问题
进行了预先计算优化
只支持能输出Apache Arrow格式的数据源
有UI,可以连接不同数据源进行数据分析
基于Apache Arrow构建的查询引擎
由托马尔和雅克创立
用于快速高效的数据交换
内存数据结构
由雅克构建
2016年
难以做到高效
可自动推导和识别“元数据”
使用半结构化数据类型
可以连接各种数据源
基于类SQL语言的查询引擎
由雅克具体负责
由托马尔筹建
2013年
MapR公司的核心员工
Hadoop发行版取得不俗成绩
出品自己的文件系统
发展不错
成立于2009年
Dremio公司的核心产品
第二个项目:Apache Arrow
第一个项目:Apache Drill
托马尔 · 希兰(Tomer Shiran)和雅克 · 纳杜(Jacques Nadeau)
MapR公司
Dremio的成长之路

该思维导图由 AI 生成,仅供参考

今天这篇文章,我们来讲讲一个非常年轻的公司 Dremio 的故事。这个故事涉及了两个 Apache 开源项目 Drill 和 Arrow,和一家 Hadoop 发行商 MapR。
我们先从 MapR 公司开始讲起,MapR 在 2009 年成立,发展一直不错,在 CTO 的带领下,公司出品了一个自己的文件系统,取代了 HDFS,同时,它的 Hadoop 发行版也取得了不俗的成绩。
托马尔 · 希兰(Tomer Shiran)和雅克 · 纳杜(Jacques Nadeau),这两位都是 MapR 公司的核心员工。让我们记住这两个人的名字,因为他们与我们接下来的故事息息相关。托马尔是 MapR 的第一位产品经理,负责整个产品线的开发。雅克则是 Apache Drill 项目和 Apache Arrow 项目的主要负责人。

第一个项目:Apache Drill

让我们把时间倒回到 2013 年。当时 Hive 已经存在,但是很慢很不好用。谷歌的 Dremel 刚出来没多久,就掀起了交互式查询的风潮,随之而来的是 Cloudera 开始了它的 Impala 引擎的计划;而 MapR 也决定做一款查询引擎,自己主导开源项目,这就是后来的 Apache Drill。
当时筹建这个项目的人,是托马尔,而具体负责干事情的人,是雅克。我之所以知道这件事情的详细情况,是因为 2013 年的时候,这两位打电话给我,希望我加盟这个尚未展开的项目。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Dremio:从Apache开源项目到创业公司的成长之路 Dremio是一个年轻的公司,其故事涉及了两个Apache开源项目Drill和Arrow,以及Hadoop发行商MapR。MapR公司的核心员工托马尔和雅克在Apache Drill项目上投入了很多年,但由于Drill在处理大规模数据时效率不高,他们决定构建另一个项目:Apache Arrow。Arrow是一个内存数据结构,旨在实现不同数据源之间的快速高效数据交换。 随着MapR公司出现问题,托马尔和雅克离开创立了Dremio公司。Dremio的核心产品是一个连接不同数据源进行数据分析的软件,它使用Apache Arrow格式统一处理数据,从而提高了效率。然而,与Drill相比,Dremio连接的数据源较少,且仅支持输出Apache Arrow格式的数据源。此外,Dremio还进行了预先计算数据以提高查询效率的优化。 尽管Dremio借鉴了Apache Drill的连接思想,并通过Apache Arrow提高了系统效率,但其面临着一些挑战。例如,Dremio在支持一些常见的数据源方面仍存在问题,这可能限制了其在传统企业中的应用。因此,Dremio在开源产品和Hadoop生态圈可能有一席之地,但在传统企业中的通用性仍有待观察。 总的来说,Dremio的发展道路充满挑战,但其折中的方式在技术上具有一定的创新性和前瞻性。然而,要想在竞争激烈的数据分析市场中生存下来,Dremio需要解决如何支持更多常见数据源的问题。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《技术与商业案例解读》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • Mao
    Dremio的低版本开源了,高级的一些功能是付费的。现在支持的数据源也多了,可能因为比较新,连接器识别元数据还是会有各种各样的问题。 我觉得Dremio最大的优势在于基于明细数据直接进行分析,这个对数据使用方非常友好。
    2022-01-17
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部