预习 01 | 大数据技术发展史:大数据的前世今生
李智慧
该思维导图由 AI 生成,仅供参考
在正式落地谈技术之前,我先花一些篇幅给你讲讲大数据技术的发展史,因为这对于你理解技术来说至关重要。
从我的角度而言,不管是学习某门技术,还是讨论某个事情,最好的方式一定不是一头扎到具体细节里,而是应该从时空的角度先了解它的来龙去脉,以及它为什么会演进成为现在的状态。当你深刻理解了这些前因后果之后,再去看现状,就会明朗很多,也能更直接地看到现状背后的本质。说实话,这对于我们理解技术、学习技术而言,同等重要。
今天我们常说的大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个数据库系统。
现在你听到分布式、大数据之类的词,肯定一点儿也不陌生。但你要知道,在 2004 年那会儿,整个互联网还处于懵懂时代,Google 发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
大数据技术的发展源于Google在2004年前后提出的GFS、MapReduce和BigTable,引领了互联网时代的变革。Hadoop作为代表,推动了大数据技术的发展,形成了大数据生态体系。随着Yarn和Spark的出现,大数据技术经历了从批处理计算到流处理计算的演进。同时,NoSQL系统也成为大数据技术的一部分。大数据技术的发展规律值得关注,抓住潮流的机会将有助于实现技术的创新和应用。大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习,需要使用Hive、Spark SQL、TensorFlow、Mahout等工具。总的来说,大数据技术体系由分布式文件系统、调度系统、计算框架、机器学习算法等组成,为读者提供了完整的大数据技术知识体系。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》,新⼈⾸单¥68
《从 0 开始学大数据》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(164)
- 最新
- 精选
- 江1.论文奠定技术发展基石; 2.业务催生技术不断突破; 3.效率倒逼技术迭代更新;
作者回复: 总结精炼,赞
2018-10-314365 - 暴风雪看了两篇专栏,感觉作者用文字描述的效果,胜过大多数视频教程
作者回复: 谢谢
2018-11-0348 - hua168大神,从0学习大数据需要哪些基础呀?后面能分享一下大数据入门的顺序和相关书籍吗,好让我们这些菜鸟能有个系统的学习
作者回复: 这个专栏就是从零学习大数据,而且很系统,希望你坚持下来。
2018-10-3041 - 杰之7在回过头来学习,重新梳理大数据平台技术体系。 通过从数据库,日志等获取的数据,sqoop,flume导入到大数据产品HDFS储存。Mapreduce,spark对储存的数据进行批计算处理,flink,storm等进行实时处理。Yarn负责对数据的资源调度。 计算框架将处理好的数据储存在数据库中,用Hive和Tensorflow等对数据进行分析和机器学习,最后将得到的结果展示在应用产品中或供他人参考。在整个平台过程中,资源调度管理系统对过程的执行先后进行管理。 回到老师的问题,我通过阅读认为,知识技术的发展离不开数据本身的飞速扩大,正是因为有了海量的数据需要google进行储存和索引排名,还会有分布式文件存储系统和计算框架,进一步在此基础上完善了大数据产品,形成大数据技术体系。对我的思考是既然大数据平台已经完成,接下来机器学习会飞速发展,因为数据量的巨大,里面的价值会是巨大的。我们要做的也许是跟上这个时代的节奏,有一点点嗅觉的发现,然后不放弃的做自身认为是对的事吧。
作者回复: 是的
2019-01-1414 - 暮光之城老师你好,能不能系统的讲解一下数据仓库和大数据有什么区别和联系呢?以及应用场景有什么不同。
作者回复: 数据仓库是解决数据问题的方案和方法,大数据是具体实现技术。大数据和关系数据库都能实现数据仓库。
2019-04-1911 - MARK从大数据的发展史想到 一是思维方式的重要性,在多数企业在提高单机性能与更高更大更全的大型服务器死磕时,谷歌的思路是部署分布式服务器集群,少花钱还多办事。有人固步自封满足与现有知识,有人则紧跟时代脉搏不断学习前进,比如来定智慧老师的大数据专栏😁 二是hadoop用纯java语言编写,没什么技术难点,但是它价值巨大。我们许多码农总是抱怨,公司技术落后还天天在CRUD没有成长空间,也许应该思考下,即使是落后的技术你真明白是怎么回事么?如果自己实现该怎么实现呢
作者回复: 👍🏻
2018-11-08210 - 有点意思看了两篇 但是对大数据的用处还是没什么概念 身边的同事一直都说大数据一般公司用不到 只有像BAT这样的大公司才用 那普通的程序员学了也没有用武之地 有些迷茫
作者回复: 技术上,大数据是一系列工具和解决问题的方法,和数据量是否大、公司是否大并无直接关系。小公司也一样可以用大数据技术创造价值。
2019-06-036 - 刘刘我是统计学出身,做“传统的”数据分析和建模,虽然一直想要往大数据的方向发展,但是总有不知从何下手的感觉。开头的这一部分让我对这些基本概念和它们的来龙去脉都有了了解。谢谢老师。
作者回复: 加油~
2019-06-303 - 钱历史潮流浩浩荡荡,顺之昌,逆之亡。 一个人若能识势,乘势而为,做什么应该都比较轻松。 通信问题如果解决了,感觉一切技术的原理都是管理学,都是在想方设法的提高资源的利用率,想要的更多要的更快。数据是计算机处理的主体,世间的一切又都可以以数据的形式呈现,所以又加速了计算机对世界的影响。
作者回复: 强
2019-08-152 - y y 怎么没看见zookeeper啊
作者回复: 下个模块,敬请期待
2018-11-152
收起评论