091 | Databricks之Spark的数据金砖王国

徐飞



该思维导图由 AI 生成，仅供参考

说起大数据的创业公司，我们一定都会提到 Databricks 这公司，而这家公司知名的原因，一大部分来自于它的开源产品 Spark。Spark 是 Hadoop 生态圈里大红大紫的项目，事实上，它甚至已经取代了新一代的经典运行框架：Hadoop MapReduce。
所以，想要了解 Databricks 这家创业公司，我们就需要先了解 Spark 这个 Apache 开源项目。Spark 是一个大数据计算框架，它诞生于加州大学伯克利分校 AMP 实验室，是当时的博士生马泰·扎哈里亚（Matei Zaharia）的博士论文课题。
2010 年，Spark 在 BSD License 下开源。经过几年发展以后，在 2013 年成立了 Databricks，同年，它被 Databricks 捐献给 Apache 基金会，并将开源模式转向了 Apache  2.0，从此，Spark 正式成为 Apache 家族里顶级开源项目之一。
Spark 是目前整个 Hadoop 的生态系统里最为活跃的计算框架，它已经取代了 Hadoop 原来 MapReduce 框架的地位，目前，只有 Flink 的计算框架尚能与它平分秋色（有关 Flink 的情况，我们会在后面的文章里详细介绍）。
Spark 框架下支持 SQL、机器学习、图计算、流计算等各种各样的计算模型，应用起来十分广泛。它不仅在开源社区里广受追捧，在大公司里也常常被拿来应用，IBM 现在已经把自己的大数据计算引擎押宝在 Spark 上了。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Databricks是一家以Spark为核心的创业公司，其盈利模式主要基于壮大Spark社区和掌控Spark技术走向。公司通过开发附加产品、提供云上搭建的Spark计算平台、对建立在Apache Spark平台上的应用进行认证以及提供技术支持等方式实现盈利。其中，通过提供针对云平台优化的Spark版本并将其作为云服务销售给用户是Databricks的重要盈利途径。此外，公司还通过对基于Spark的应用进行认证和提供技术支持服务来获取收入。然而，Databricks面临着机器学习和深度学习潮流带来的挑战，因为基于Spark的机器学习平台无法有效利用GPU，而且还需要应对后起之秀Flink的竞争。尽管Databricks面临一些挑战，但其在Spark领域的专业知识和市场占有率为其未来发展奠定了稳固基础。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《技术与商业案例解读》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(2)

最新
精选

geduo4612
为什么说jvm会影响深度学习的性能呢？
作者回复: 不能用在GPU上
2019-05-24
2

小孙
flink也很老了，并没有哪个站在哪个的肩膀上，spark真正牛逼的还是在sql这块，structed streaming很好的嫁接在了spark sql上，一套处理逻辑可以无缝在流处理和批处理上迁移，不像flink两套接口，
2018-07-27

3

收起评论