大数据经典论文解读
徐文浩
bothub 创始人
13843 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

01 | 什么是大数据:从GFS到Dataflow,12年大数据生态演化图

你好,我是徐文浩。
在正式开始解读一篇篇论文之前,我想先让你来回答一个问题,那就是“大数据”技术到底是什么呢?处理 100GB 数据算是大数据技术吗?如果不算的话,那么处理 1TB 数据算是大数据吗?
“大数据”这个名字流行起来到现在,差不多已经有十年时间了。在这十年里,不同的人都按照自己的需要给大数据编出了自己的解释。有些解释很具体,来自于一线写 Java 代码的工程师,说用 Hadoop 处理数据就是大数据;有些解释很高大上,来自于市场上靠发明大词儿为生的演说家,说我们能采集和处理全量的数据就是大数据,如果只能采集到部分数据,或者处理的时候要对数据进行采样,那就不是大数据。
其实,要想学好大数据,我们需要先正本清源,弄清楚大数据在技术上到底涵盖了些什么。所以今天这节课,我就从大数据技术的核心理念和历史脉络这两个角度,来带你理解下什么是大数据技术。
通过理解这两点,你就会对大数据技术有一个全面的认识。而这个认识,一方面呢,能让你始终围绕着大数据技术的核心理念,去做好技术开发工作,不至于跑偏;而另一方面呢,它能帮你在学习后面每一个知识点的时候,都能和其他部分建立联系,帮你加深对大数据技术的理解。
好了,那么下面,我们就先来一起看看,大数据的核心理念是什么。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

大数据技术的发展源自Google的实际需求,演变成了一系列开源系统,推动了整个大数据领域的发展。Google的三篇重磅论文“GFS、MapReduce和Bigtable”为大数据领域带来了火种,解决了存储、计算和在线服务的核心架构设计。随后,围绕MapReduce,技术圈不断优化和迭代计算性能,Hive、Dremel和Spark分别完成了对MapReduce的彻底进化。同时,Bigtable在保障伸缩性的前提下,获得了更多的关系型数据库的能力。流式数据处理也逐步进化,从S4、Storm到Kafka,最终形成了真正的“流批一体”的大数据处理架构。整个大数据技术的发展过程充满了探索和选择,充满了争论、妥协和不成功的尝试,但最终历史告诉我们什么是正确的选择。文章还介绍了分布式锁、Raft协议、Kubernetes等现代分布式系统的基础设施,以及对大数据领域发展有重要贡献的论文和开源框架。整体而言,本文深入探讨了大数据技术的发展历程和关键技术,为读者提供了全面的大数据技术概览。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(39)

  • 最新
  • 精选
  • Ball
    这篇文章很赞!通读整篇文章最大的收获是从全局视角了解了大数据经典论文、关键数据系统和重要事件之间的关系。感谢作者如此详细的列举了大数据相关的论文、数据系统和历史事件,还仔细梳理了他们之间的逻辑关系。 之前对大数据的认知就是零散的几篇论文以及对少数大数据组件的深入了解,对整个大数据生态的全貌还是一无所知。这篇文章让我从纵向的时间轴和横向的各个数据系统的发展竞争两个角度,对整个大数据生态有了新的认识,值回票价了!

    作者回复: Ball同学, 你好,收到这个留言很高兴,也希望后续的内容能对你有帮助。

    2021-09-15
    26
  • pedro
    这讲的实在是太好了,很多大数据领域的教授都未必能写出如此提纲挈领的综述! 追追追!!!

    作者回复: 感谢支持,欢迎和我一起坚持完整个专栏

    2021-09-17
    17
  • CondorHero
    对于前端来讲发现当做科普文来读不错哎,不知道后面内容会不会很难。

    作者回复: Condor Hero同学, 你好,的确作为科普文看是不错。我会尽量减少对于各类知识的“前置依赖”,有需要依赖特定知识的时候也会尽量给出推荐可以补充阅读的基础知识。不过对于学习大数据来说,的确对于后端开发有一些基本认识会更有效率一些。

    2021-09-15
    11
  • Jeffpan
    围绕着批处理,流式处理,分布式协议以及资源调度系统来把握整个文章发展,这些技术的发展无外乎想用更少的资源去做更多的事情,同时可以更加优快好省地去发展业务,节约开发人员和企业的时间与成本。

    作者回复: 👍

    2021-09-28
    5
  • lei
    从大数据开发到数仓到再用户画像,中间接触了十多个框架了。比较常用的是spark,kafka,presto,kudu了,从调用API到分析源码,这条路很艰难。 不过最终也终于把spark和kafka的源码分析完了,但也只能到What这一步。老师说得很对,只有研究明白论文才会懂得Why,希望能跟上老师脚步让自己再上一个台阶。 同时,自己近期也在研究分布式理论,也学了极客的很多优质课程。我组建了一个优质分享群,感兴趣可以加我VX: aacc6688521

    作者回复: 👍 一起加油呀。

    2021-09-20
    5
  • vkingnew
    可以补充讲讲HTAP的往事

    作者回复: vkingnew同学,你好, 过去20年实际互联网工程届主流的解决方案还是 OLAP和OLTP分开,两边数据通过ETL或者其他各种方式同步。并且不断优化的是能够缩短两边同步的Latency。现在所谓的很多HTAP方案其实也是这样一个工程方案,而不是在数据库的存储引擎上有什么新发明。 我自己个人观点也是 HTAP 太理想化了,不过这个事情很难说,大部分工程师也没有想到Spanner的出现。

    2021-09-23
    2
    3
  • Renaissance
    老师的那张图里面,dataflow和flink两个分支具体有什么区别呢?另外一个问题,对应的AWS产品有哪些呢?我看图里面只画出来了Google cloud的一些产品,不知道老师能否告知一二。

    作者回复: Dataflow是Google发表的对于实时数据处理或者说通用数据处理相对总结性的论文。 但是和Google的很多系统一样,Dataflow只有论文,Google并没有把代码开源出来。只开源了一个类似于标准接口层的Apache Beam。 Flink可能是现在最接近Dataflow论文原始实现的一个系统了。 对于AWS,抱歉一方面大部分大数据论文都来自于Google,另一方面我们也重度使用GCP而不是AWS,所以AWS的产品我并不熟悉。

    2021-09-20
    3
  • Geek_40bb5c
    本科研究生都是大数据专业,却一篇大数据论文都没看过,惭愧惭愧。

    作者回复: 那就趁着这个机会多读几篇吧,读论文是一种很有意思的思维实验

    2021-09-16
    4
    2
  • 吴小智
    没有 《Large-scale Incremental Processing Using Distributed Transactions and Notifications》 这个论文吗?

    作者回复: Percolator 这个系统高度和搜索引擎的索引更新相关,考虑到整个专栏的通用性,以及篇幅的限制,所以没有选择讲解这篇论文。

    2021-09-26
    1
  • 巴普洛夫的
    没有做过大数据的人,是不是要实战一些项目了解一下概念

    作者回复: 实战是需要的,如果完全没有实际体验过大数据的开发,可能很多概念理解起来会更难。 一个办法是现在很多云服务都有免费的额度,比如Google Cloud就可以有免费300美元的额度,你可以直接在上面试着跑一些示例程序找找感觉。

    2021-09-18
    1
收起评论
显示
设置
留言
39
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部