预习 01 | 大数据技术发展史：大数据的前世今生

李智慧



该思维导图由 AI 生成，仅供参考

在正式落地谈技术之前，我先花一些篇幅给你讲讲大数据技术的发展史，因为这对于你理解技术来说至关重要。
从我的角度而言，不管是学习某门技术，还是讨论某个事情，最好的方式一定不是一头扎到具体细节里，而是应该从时空的角度先了解它的来龙去脉，以及它为什么会演进成为现在的状态。当你深刻理解了这些前因后果之后，再去看现状，就会明朗很多，也能更直接地看到现状背后的本质。说实话，这对于我们理解技术、学习技术而言，同等重要。
今天我们常说的大数据技术，其实起源于 Google 在 2004 年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
你知道，搜索引擎主要就做两件事情，一个是网页抓取，一个是索引构建，而在这个过程中，有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的，你从介绍中也能看出来，一个文件系统、一个计算框架、一个数据库系统。
现在你听到分布式、大数据之类的词，肯定一点儿也不陌生。但你要知道，在 2004 年那会儿，整个互联网还处于懵懂时代，Google 发布的论文实在是让业界为之一振，大家恍然大悟，原来还可以这么玩。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

大数据技术的发展源于Google在2004年前后提出的GFS、MapReduce和BigTable，引领了互联网时代的变革。Hadoop作为代表，推动了大数据技术的发展，形成了大数据生态体系。随着Yarn和Spark的出现，大数据技术经历了从批处理计算到流处理计算的演进。同时，NoSQL系统也成为大数据技术的一部分。大数据技术的发展规律值得关注，抓住潮流的机会将有助于实现技术的创新和应用。大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习，需要使用Hive、Spark SQL、TensorFlow、Mahout等工具。总的来说，大数据技术体系由分布式文件系统、调度系统、计算框架、机器学习算法等组成，为读者提供了完整的大数据技术知识体系。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《从 0 开始学大数据》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(164)

最新
精选

江
1.论文奠定技术发展基石； 2.业务催生技术不断突破； 3.效率倒逼技术迭代更新；
作者回复: 总结精炼，赞
2018-10-31
4
365
暴风雪
看了两篇专栏，感觉作者用文字描述的效果，胜过大多数视频教程
作者回复: 谢谢
2018-11-03

48
hua168
大神，从0学习大数据需要哪些基础呀？后面能分享一下大数据入门的顺序和相关书籍吗，好让我们这些菜鸟能有个系统的学习
作者回复: 这个专栏就是从零学习大数据，而且很系统，希望你坚持下来。
2018-10-30

41
杰之7
在回过头来学习，重新梳理大数据平台技术体系。通过从数据库，日志等获取的数据，sqoop,flume导入到大数据产品HDFS储存。Mapreduce,spark对储存的数据进行批计算处理，flink,storm等进行实时处理。Yarn负责对数据的资源调度。计算框架将处理好的数据储存在数据库中，用Hive和Tensorflow等对数据进行分析和机器学习，最后将得到的结果展示在应用产品中或供他人参考。在整个平台过程中，资源调度管理系统对过程的执行先后进行管理。回到老师的问题，我通过阅读认为，知识技术的发展离不开数据本身的飞速扩大，正是因为有了海量的数据需要google进行储存和索引排名，还会有分布式文件存储系统和计算框架，进一步在此基础上完善了大数据产品，形成大数据技术体系。对我的思考是既然大数据平台已经完成，接下来机器学习会飞速发展，因为数据量的巨大，里面的价值会是巨大的。我们要做的也许是跟上这个时代的节奏，有一点点嗅觉的发现，然后不放弃的做自身认为是对的事吧。
作者回复: 是的
2019-01-14

14
暮光之城
老师你好，能不能系统的讲解一下数据仓库和大数据有什么区别和联系呢？以及应用场景有什么不同。
作者回复: 数据仓库是解决数据问题的方案和方法，大数据是具体实现技术。大数据和关系数据库都能实现数据仓库。
2019-04-19

11
MARK
从大数据的发展史想到一是思维方式的重要性，在多数企业在提高单机性能与更高更大更全的大型服务器死磕时，谷歌的思路是部署分布式服务器集群，少花钱还多办事。有人固步自封满足与现有知识，有人则紧跟时代脉搏不断学习前进，比如来定智慧老师的大数据专栏😁 二是hadoop用纯java语言编写，没什么技术难点，但是它价值巨大。我们许多码农总是抱怨，公司技术落后还天天在CRUD没有成长空间，也许应该思考下，即使是落后的技术你真明白是怎么回事么？如果自己实现该怎么实现呢
作者回复: 👍🏻
2018-11-08
2
10
有点意思
看了两篇但是对大数据的用处还是没什么概念身边的同事一直都说大数据一般公司用不到只有像BAT这样的大公司才用那普通的程序员学了也没有用武之地有些迷茫
作者回复: 技术上，大数据是一系列工具和解决问题的方法，和数据量是否大、公司是否大并无直接关系。小公司也一样可以用大数据技术创造价值。
2019-06-03

6
刘刘
我是统计学出身，做“传统的”数据分析和建模，虽然一直想要往大数据的方向发展，但是总有不知从何下手的感觉。开头的这一部分让我对这些基本概念和它们的来龙去脉都有了了解。谢谢老师。
作者回复: 加油~
2019-06-30

3
钱
历史潮流浩浩荡荡，顺之昌，逆之亡。一个人若能识势，乘势而为，做什么应该都比较轻松。通信问题如果解决了，感觉一切技术的原理都是管理学，都是在想方设法的提高资源的利用率，想要的更多要的更快。数据是计算机处理的主体，世间的一切又都可以以数据的形式呈现，所以又加速了计算机对世界的影响。
作者回复: 强
2019-08-15

2
y y 
怎么没看见zookeeper啊
作者回复: 下个模块，敬请期待
2018-11-15

2

收起评论