076 | 社交公司们的大数据贡献
徐飞
该思维导图由 AI 生成,仅供参考
在 Hadoop 诞生初期,雅虎扮演了“活雷锋”的角色,几乎凭借一己之力撑起了整个 Hadoop 系统的发展。2006 年雅虎把 Hadoop 开源以后,其他公司渐渐加入了 Hadoop 生态圈,其中三大社交公司 Facebook、LinkedIn 和 Twitter 的加入,为 Hadoop 生态圈的繁荣发展做出了巨大贡献。
一、Facebook 对 Hadoop 生态圈的贡献
最先加入雅虎 Hadoop 项目里的是还在创业阶段的 Facebook,它从 2008 年开始在内部使用 Hadoop。因为用 MapReduce 做数据分析需要写很多 C++ 或者 Java 程序,这非常不方便,因此 Facebook 决定做一个叫作 SQL on Hadoop 的项目,也就是后来鼎鼎大名的 Hive。 这个项目的目标是,要在 Hadoop 上搭建一个可以用类似 SQL 进行数据查询、分析的应用。
最开始的时候,Facebook 内部专门成立了一个 Hive 团队,后来团队成员从最初的两个人扩展到六个人。这时,Hive 项目只是 Facebook 一个公司在开发和推广。
Hive 的开发风格体现了 Facebook 的特色:快、糙、猛。Hive 开发者的代码写得很快,因此 Hive 的代码质量是所有开源软件里面相对比较粗糙的:Bug 比较多,且维护难度大,但基本上实现了所有必需的功能。如果说在没有遇到 Bug 且不需要维护的情况下,Hive 还是可以凑活着用的。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Hadoop生态圈的启示:抱团取暖才是生存之道 Hadoop生态圈的发展离不开Facebook、LinkedIn和Twitter这三大社交媒体公司的巨大贡献。Facebook在Hadoop内部使用过程中推动了SQL on Hadoop项目Hive的开发,但后来转向了Presto,而开源了NoSQL数据库项目Cassandra。LinkedIn则开源了Kafka和Samza,为数据交换和流处理引擎做出了贡献。Twitter则推动了流处理引擎Storm的开源,并在国内被阿里巴巴广泛采用。这些公司的投入和开源项目解决了Hadoop生态圈的功能缺失,使得Hadoop不仅仅是一个大数据平台,更成为了一种标准。这些社交公司之所以如此热衷于Hadoop生态圈,是因为它们单独的技术实力不够强大,难以和谷歌抗衡,因此抱团取暖、共同促进和完善这个生态圈,是它们和谷歌并存的不二法门。因此,Hadoop的诞生,可以说是天时、地利、人和的必然产物。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《技术与商业案例解读》,新⼈⾸单¥68
《技术与商业案例解读》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- PandaFacebook 的 Hive LinkedIn 的 Kafka Twitter 的 Storm 三大社交媒体公司对 Hadoop 生态圈的贡献是巨大的2019-01-2816
收起评论