076 | 社交公司们的大数据贡献

徐飞



该思维导图由 AI 生成，仅供参考

在 Hadoop 诞生初期，雅虎扮演了“活雷锋”的角色，几乎凭借一己之力撑起了整个 Hadoop 系统的发展。2006 年雅虎把 Hadoop 开源以后，其他公司渐渐加入了 Hadoop 生态圈，其中三大社交公司 Facebook、LinkedIn 和 Twitter 的加入，为 Hadoop 生态圈的繁荣发展做出了巨大贡献。
一、Facebook 对 Hadoop 生态圈的贡献最先加入雅虎 Hadoop 项目里的是还在创业阶段的 Facebook，它从 2008 年开始在内部使用 Hadoop。因为用 MapReduce 做数据分析需要写很多 C++ 或者 Java 程序，这非常不方便，因此 Facebook 决定做一个叫作 SQL on Hadoop 的项目，也就是后来鼎鼎大名的 Hive。 这个项目的目标是，要在 Hadoop 上搭建一个可以用类似 SQL 进行数据查询、分析的应用。
最开始的时候，Facebook 内部专门成立了一个 Hive 团队，后来团队成员从最初的两个人扩展到六个人。这时，Hive 项目只是 Facebook 一个公司在开发和推广。
Hive 的开发风格体现了 Facebook 的特色：快、糙、猛。Hive 开发者的代码写得很快，因此 Hive 的代码质量是所有开源软件里面相对比较粗糙的：Bug 比较多，且维护难度大，但基本上实现了所有必需的功能。如果说在没有遇到 Bug 且不需要维护的情况下，Hive 还是可以凑活着用的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Hadoop生态圈的启示：抱团取暖才是生存之道 Hadoop生态圈的发展离不开Facebook、LinkedIn和Twitter这三大社交媒体公司的巨大贡献。Facebook在Hadoop内部使用过程中推动了SQL on Hadoop项目Hive的开发，但后来转向了Presto，而开源了NoSQL数据库项目Cassandra。LinkedIn则开源了Kafka和Samza，为数据交换和流处理引擎做出了贡献。Twitter则推动了流处理引擎Storm的开源，并在国内被阿里巴巴广泛采用。这些公司的投入和开源项目解决了Hadoop生态圈的功能缺失，使得Hadoop不仅仅是一个大数据平台，更成为了一种标准。这些社交公司之所以如此热衷于Hadoop生态圈，是因为它们单独的技术实力不够强大，难以和谷歌抗衡，因此抱团取暖、共同促进和完善这个生态圈，是它们和谷歌并存的不二法门。因此，Hadoop的诞生，可以说是天时、地利、人和的必然产物。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《技术与商业案例解读》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(1)

最新
精选

Panda
Facebook 的 Hive LinkedIn 的 Kafka Twitter 的 Storm 三大社交媒体公司对 Hadoop 生态圈的贡献是巨大的
2019-01-28

16

收起评论