技术与商业案例解读
徐飞
前华为云资深总监,大数据专家
36771 人已学习
新⼈⾸单¥68
登录后,你可以任选6讲全文学习
课程目录
已完结/共 164 讲
技术与商业案例解读
15
15
1.0x
00:00/00:00
登录|注册

076 | 社交公司们的大数据贡献

Hadoop的必然产物
社交公司的热衷
Hadoop的重要性
Hadoop的发展
JStorm
Storm的开发语言Clojure
BackType的收购
开源的流处理引擎Storm
开源项目Samza
创办Confluent
开源项目Kafka
开源的NoSQL数据库项目:Cassandra
Hive团队
SQL on Hadoop项目
Hadoop开源
雅虎的角色
总结
Twitter对Hadoop生态圈的贡献
LinkedIn对Hadoop生态圈的贡献
Facebook对Hadoop生态圈的贡献
Hadoop诞生初期
Hadoop生态圈的启示

该思维导图由 AI 生成,仅供参考

在 Hadoop 诞生初期,雅虎扮演了“活雷锋”的角色,几乎凭借一己之力撑起了整个 Hadoop 系统的发展。2006 年雅虎把 Hadoop 开源以后,其他公司渐渐加入了 Hadoop 生态圈,其中三大社交公司 Facebook、LinkedIn 和 Twitter 的加入,为 Hadoop 生态圈的繁荣发展做出了巨大贡献。

一、Facebook 对 Hadoop 生态圈的贡献

最先加入雅虎 Hadoop 项目里的是还在创业阶段的 Facebook,它从 2008 年开始在内部使用 Hadoop。因为用 MapReduce 做数据分析需要写很多 C++ 或者 Java 程序,这非常不方便,因此 Facebook 决定做一个叫作 SQL on Hadoop 的项目,也就是后来鼎鼎大名的 Hive。 这个项目的目标是,要在 Hadoop 上搭建一个可以用类似 SQL 进行数据查询、分析的应用。
最开始的时候,Facebook 内部专门成立了一个 Hive 团队,后来团队成员从最初的两个人扩展到六个人。这时,Hive 项目只是 Facebook 一个公司在开发和推广。
Hive 的开发风格体现了 Facebook 的特色:快、糙、猛。Hive 开发者的代码写得很快,因此 Hive 的代码质量是所有开源软件里面相对比较粗糙的:Bug 比较多,且维护难度大,但基本上实现了所有必需的功能。如果说在没有遇到 Bug 且不需要维护的情况下,Hive 还是可以凑活着用的。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Hadoop生态圈的启示:抱团取暖才是生存之道 Hadoop生态圈的发展离不开Facebook、LinkedIn和Twitter这三大社交媒体公司的巨大贡献。Facebook在Hadoop内部使用过程中推动了SQL on Hadoop项目Hive的开发,但后来转向了Presto,而开源了NoSQL数据库项目Cassandra。LinkedIn则开源了Kafka和Samza,为数据交换和流处理引擎做出了贡献。Twitter则推动了流处理引擎Storm的开源,并在国内被阿里巴巴广泛采用。这些公司的投入和开源项目解决了Hadoop生态圈的功能缺失,使得Hadoop不仅仅是一个大数据平台,更成为了一种标准。这些社交公司之所以如此热衷于Hadoop生态圈,是因为它们单独的技术实力不够强大,难以和谷歌抗衡,因此抱团取暖、共同促进和完善这个生态圈,是它们和谷歌并存的不二法门。因此,Hadoop的诞生,可以说是天时、地利、人和的必然产物。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《技术与商业案例解读》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • Panda
    Facebook 的 Hive LinkedIn 的 Kafka Twitter 的 Storm 三大社交媒体公司对 Hadoop 生态圈的贡献是巨大的
    2019-01-28
    16
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部