01 | 什么是大数据:从GFS到Dataflow,12年大数据生态演化图
- 深入了解
- 翻译
- 解释
- 总结
大数据技术的发展源自Google的实际需求,演变成了一系列开源系统,推动了整个大数据领域的发展。Google的三篇重磅论文“GFS、MapReduce和Bigtable”为大数据领域带来了火种,解决了存储、计算和在线服务的核心架构设计。随后,围绕MapReduce,技术圈不断优化和迭代计算性能,Hive、Dremel和Spark分别完成了对MapReduce的彻底进化。同时,Bigtable在保障伸缩性的前提下,获得了更多的关系型数据库的能力。流式数据处理也逐步进化,从S4、Storm到Kafka,最终形成了真正的“流批一体”的大数据处理架构。整个大数据技术的发展过程充满了探索和选择,充满了争论、妥协和不成功的尝试,但最终历史告诉我们什么是正确的选择。文章还介绍了分布式锁、Raft协议、Kubernetes等现代分布式系统的基础设施,以及对大数据领域发展有重要贡献的论文和开源框架。整体而言,本文深入探讨了大数据技术的发展历程和关键技术,为读者提供了全面的大数据技术概览。
《大数据经典论文解读》,新⼈⾸单¥59
全部留言(39)
- 最新
- 精选
- Ball这篇文章很赞!通读整篇文章最大的收获是从全局视角了解了大数据经典论文、关键数据系统和重要事件之间的关系。感谢作者如此详细的列举了大数据相关的论文、数据系统和历史事件,还仔细梳理了他们之间的逻辑关系。 之前对大数据的认知就是零散的几篇论文以及对少数大数据组件的深入了解,对整个大数据生态的全貌还是一无所知。这篇文章让我从纵向的时间轴和横向的各个数据系统的发展竞争两个角度,对整个大数据生态有了新的认识,值回票价了!
作者回复: Ball同学, 你好,收到这个留言很高兴,也希望后续的内容能对你有帮助。
2021-09-1526 - pedro这讲的实在是太好了,很多大数据领域的教授都未必能写出如此提纲挈领的综述! 追追追!!!
作者回复: 感谢支持,欢迎和我一起坚持完整个专栏
2021-09-1717 - CondorHero对于前端来讲发现当做科普文来读不错哎,不知道后面内容会不会很难。
作者回复: Condor Hero同学, 你好,的确作为科普文看是不错。我会尽量减少对于各类知识的“前置依赖”,有需要依赖特定知识的时候也会尽量给出推荐可以补充阅读的基础知识。不过对于学习大数据来说,的确对于后端开发有一些基本认识会更有效率一些。
2021-09-1511 - Jeffpan围绕着批处理,流式处理,分布式协议以及资源调度系统来把握整个文章发展,这些技术的发展无外乎想用更少的资源去做更多的事情,同时可以更加优快好省地去发展业务,节约开发人员和企业的时间与成本。
作者回复: 👍
2021-09-285 - lei从大数据开发到数仓到再用户画像,中间接触了十多个框架了。比较常用的是spark,kafka,presto,kudu了,从调用API到分析源码,这条路很艰难。 不过最终也终于把spark和kafka的源码分析完了,但也只能到What这一步。老师说得很对,只有研究明白论文才会懂得Why,希望能跟上老师脚步让自己再上一个台阶。 同时,自己近期也在研究分布式理论,也学了极客的很多优质课程。我组建了一个优质分享群,感兴趣可以加我VX: aacc6688521
作者回复: 👍 一起加油呀。
2021-09-205 - vkingnew可以补充讲讲HTAP的往事
作者回复: vkingnew同学,你好, 过去20年实际互联网工程届主流的解决方案还是 OLAP和OLTP分开,两边数据通过ETL或者其他各种方式同步。并且不断优化的是能够缩短两边同步的Latency。现在所谓的很多HTAP方案其实也是这样一个工程方案,而不是在数据库的存储引擎上有什么新发明。 我自己个人观点也是 HTAP 太理想化了,不过这个事情很难说,大部分工程师也没有想到Spanner的出现。
2021-09-2323 - Renaissance老师的那张图里面,dataflow和flink两个分支具体有什么区别呢?另外一个问题,对应的AWS产品有哪些呢?我看图里面只画出来了Google cloud的一些产品,不知道老师能否告知一二。
作者回复: Dataflow是Google发表的对于实时数据处理或者说通用数据处理相对总结性的论文。 但是和Google的很多系统一样,Dataflow只有论文,Google并没有把代码开源出来。只开源了一个类似于标准接口层的Apache Beam。 Flink可能是现在最接近Dataflow论文原始实现的一个系统了。 对于AWS,抱歉一方面大部分大数据论文都来自于Google,另一方面我们也重度使用GCP而不是AWS,所以AWS的产品我并不熟悉。
2021-09-203 - Geek_40bb5c本科研究生都是大数据专业,却一篇大数据论文都没看过,惭愧惭愧。
作者回复: 那就趁着这个机会多读几篇吧,读论文是一种很有意思的思维实验
2021-09-1642 - 吴小智没有 《Large-scale Incremental Processing Using Distributed Transactions and Notifications》 这个论文吗?
作者回复: Percolator 这个系统高度和搜索引擎的索引更新相关,考虑到整个专栏的通用性,以及篇幅的限制,所以没有选择讲解这篇论文。
2021-09-261 - 巴普洛夫的没有做过大数据的人,是不是要实战一些项目了解一下概念
作者回复: 实战是需要的,如果完全没有实际体验过大数据的开发,可能很多概念理解起来会更难。 一个办法是现在很多云服务都有免费的额度,比如Google Cloud就可以有免费300美元的额度,你可以直接在上面试着跑一些示例程序找找感觉。
2021-09-181