从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

预习 01 | 大数据技术发展史:大数据的前世今生

李智慧 2018-10-30
在正式落地谈技术之前,我先花一些篇幅给你讲讲大数据技术的发展史,因为这对于你理解技术来说至关重要。
从我的角度而言,不管是学习某门技术,还是讨论某个事情,最好的方式一定不是一头扎到具体细节里,而是应该从时空的角度先了解它的来龙去脉,以及它为什么会演进成为现在的状态。当你深刻理解了这些前因后果之后,再去看现状,就会明朗很多,也能更直接地看到现状背后的本质。说实话,这对于我们理解技术、学习技术而言,同等重要。
今天我们常说的大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。
你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个数据库系统。
现在你听到分布式、大数据之类的词,肯定一点儿也不陌生。但你要知道,在 2004 年那会儿,整个互联网还处于懵懂时代,Google 发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(114)

  • 1.论文奠定技术发展基石;
    2.业务催生技术不断突破;
    3.效率倒逼技术迭代更新;

    作者回复: 总结精炼,赞

    2018-10-31
    209
  • xiaomian12138
    只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的泡沫,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。

    这句话真好
    2018-10-30
    74
  • hua168
    大神,从0学习大数据需要哪些基础呀?后面能分享一下大数据入门的顺序和相关书籍吗,好让我们这些菜鸟能有个系统的学习

    作者回复: 这个专栏就是从零学习大数据,而且很系统,希望你坚持下来。

    2018-10-30
    22
  • 暴风雪
    看了两篇专栏,感觉作者用文字描述的效果,胜过大多数视频教程

    作者回复: 谢谢

    2018-11-03
    14
  • 猫头鹰爱拿铁
    昨天刚订阅专栏 今天就得知消息 公司要上大数据项目了 我是项目组成员 好开心 真的好巧啊 感谢下订阅专栏带来的运气 同时也要好好学习 哈哈
    2018-10-30
    14
  • 公号-代码荣耀
    大数据生态的发展还是遵循着不断演进的过程,出现新问题、解决新问题、更加容易的解决新问题、然后再次出现新问题,以此不断螺旋上升。
    大数据技术本身就是为业务而生,而不是脱离业务而产生的新技术;正是由于将业务刻在大数据本身的基因里面,所以很多大厂商都对大数据的发展、应用、推广、普及起到了很重要的促进作用。
    现在我们正处于大数据时代,除了要了解,甚至掌握大数据技术,更加需要培养、具备大数据思维,让数据成为信息、形成知识、支撑决策,让数据说话。
    2018-10-30
    8
  • hashmap
    如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷忙于压抑
    真的是这样,有感触,
    要站在时代的前列腺,顺势而为
    2018-11-09
    7
  • 韩程
    老师你好,能不能系统的讲解一下数据仓库和大数据有什么区别和联系呢?以及应用场景有什么不同。

    作者回复: 数据仓库是解决数据问题的方案和方法,大数据是具体实现技术。大数据和关系数据库都能实现数据仓库。

    2019-04-19
    3
  • y y 
    怎么没看见zookeeper啊

    作者回复: 下个模块,敬请期待

    2018-11-15
    2
  • MARK
    从大数据的发展史想到
    一是思维方式的重要性,在多数企业在提高单机性能与更高更大更全的大型服务器死磕时,谷歌的思路是部署分布式服务器集群,少花钱还多办事。有人固步自封满足与现有知识,有人则紧跟时代脉搏不断学习前进,比如来定智慧老师的大数据专栏😁
    二是hadoop用纯java语言编写,没什么技术难点,但是它价值巨大。我们许多码农总是抱怨,公司技术落后还天天在CRUD没有成长空间,也许应该思考下,即使是落后的技术你真明白是怎么回事么?如果自己实现该怎么实现呢

    作者回复: 👍🏻

    2018-11-08
    2
  • aspire
    数据为信息基础原,大数据为大规模数据信息,而如何将大规模数据信息进行处理则是关键事宜。公司一般会根据业务场景高效的的计算处理大规模数据信息,但各公司业务逻辑又不同,所以应有一套基础技术数据处理框架~
    2018-10-30
    2
  • 龙华强
    时代的发展就是科技的发展,我们紧跟科技发展的潮流,现在和将来,都不会迷茫,我们不是码农,我们是时代的开创者和见证者
    2018-10-30
    2
  • Droices
    读过李老师的大型网络技术架构,在公众号看到了这个就直接买了。
    2018-10-30
    2
  • 刘刘
    我是统计学出身,做“传统的”数据分析和建模,虽然一直想要往大数据的方向发展,但是总有不知从何下手的感觉。开头的这一部分让我对这些基本概念和它们的来龙去脉都有了了解。谢谢老师。

    作者回复: 加油~

    2019-06-30
    1
  • eldon
    我们要顺应潮流,也要众争勿往。
    2019-01-16
    1
  • 杰之7
    在回过头来学习,重新梳理大数据平台技术体系。

    通过从数据库,日志等获取的数据,sqoop,flume导入到大数据产品HDFS储存。Mapreduce,spark对储存的数据进行批计算处理,flink,storm等进行实时处理。Yarn负责对数据的资源调度。

    计算框架将处理好的数据储存在数据库中,用Hive和Tensorflow等对数据进行分析和机器学习,最后将得到的结果展示在应用产品中或供他人参考。在整个平台过程中,资源调度管理系统对过程的执行先后进行管理。

    回到老师的问题,我通过阅读认为,知识技术的发展离不开数据本身的飞速扩大,正是因为有了海量的数据需要google进行储存和索引排名,还会有分布式文件存储系统和计算框架,进一步在此基础上完善了大数据产品,形成大数据技术体系。对我的思考是既然大数据平台已经完成,接下来机器学习会飞速发展,因为数据量的巨大,里面的价值会是巨大的。我们要做的也许是跟上这个时代的节奏,有一点点嗅觉的发现,然后不放弃的做自身认为是对的事吧。

    作者回复: 是的

    2019-01-14
    1
  • chenssy
    从 0 开始学习大数据,现在正好在数据平台组,从 0 开始搭建大数据平台,希望跟着这个专栏一起成长
    2019-01-08
    1
  • Luckiness
    有没有什么关于大数据学习技巧或者方式方法提高我们学习大数据的途径,让我们少走弯路,提高效率的学习?只需要按照智慧哥的脚步就能学好吗?
    2018-12-14
    1
  • 小太白dingyi david
    大数据很早就有行业和学科一直在研究和处理,比如金融和天文学。只是这一波浪潮涌来,被推到了浪尖。应用层面,人工智能和大数据交叉甚多不分彼此,很多机构和媒体把二者完全分离,叫人唏嘘。初学者云雾缭绕,幸有极客邦专栏,拨乱反正,指明方向。谢谢!

    作者回复: 谢谢你

    2018-11-06
    1
  • JIY
    每个时代在进行的过程中都会遇到自己的瓶颈 在冲破瓶颈的时候 大量的技术会涌现出来。 在海边风来了 就肯定有一批海鸥还迎着风飞翔,剩下的一批会去躲避风浪。
    2018-11-05
    1
收起评论
99+
返回
顶部