从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

10 | 模块答疑:我们能从Hadoop学到什么?

李智慧 2018-11-20
你好,我是李智慧。专栏的模块一已经更新完毕,按照计划,今天是我们答疑的时间。首先要感谢订阅专栏的同学给我留言,每条留言我都看过了,有些留言对我的启发也很大,希望同学们可以多多跟我互动。我在每个模块都设置了一个答疑的主题,想跟你聊聊我在学习这个模块时的心得体会。另外,我也会贴出一些同学的疑问,跟你聊聊我的想法。
今天的主题是:我们能从 Hadoop 学到什么?
最近几年,我跟很多创业者交流,发现创业最艰难的地方,莫过于创业项目难以实现商业价值。很多时候技术实现了、产品做好了,然后千辛万苦做运营,各种补贴、各种宣传,但是用户就是不买账,活跃差、留存低。
很多时候,我们不是不够努力,可是如果方向错了,再多努力似乎也没有用。阿里有句话说的是“方向对了,路就不怕远”,雷军也说过“不要用你战术上的勤奋,掩盖你战略上的懒惰”。这两句话都是说,要找好方向、找准机会,不要为了努力而努力,要为了目标和价值而努力。而王兴则更加直言不讳:“很多人为了放弃思考,什么事情都干得出来”。
说了那么多,我们再回过来看看 Hadoop 的成长历程。从 2004 年 Google 发表论文,到 2008 年 Hadoop 成为 Apache 的开源项目,历时 4 年。当时世界上那么多搜索引擎公司似乎都对这件事熟视无睹,Yahoo、百度、搜狐(是的,搜狐曾经是一家搜索引擎公司),都任由这个机会流失。只有 Doug Cutting 把握住机会,做出了 Hadoop,开创了大数据行业,甚至引领了一个时代。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(30)

  • 带你去旅行 置顶
    蜗牛,您好,那是一段spark代码,你可以尝试把每一步的结果打印出来,就能明白每一个算子的用途了。
    2018-11-20
    6
  • 三木子
    老师好。感谢你提供的方法论,我想谈下我学大数据失败心得,hadoop我也断断续续看过几次文档,写过wordCount,但是就是没有进步,我总结了下原因是我在工作中没有应用到hadoop,没有实际场景体会,体会不到它的价值。学spark也是这样,这里就有个问题想请问老师,向我这样在工作没用到大数据可以在什么地方找些实际案列学习提高呢,后期也想转型搞找大数据。谢谢!

    作者回复: 坚持看完专栏,也许会有收获。

    2018-11-20
    24
  • 风之翼
    我认为,学习一个新的东西,首先要弄清楚三件事:这是什么东西(干什么的)?为什么需要它(怎么来的)?它是如何运作的?
    随着互联网信息产业的发展,网络上时刻产生的数据以及沉淀的历史数据量规模呈爆炸式增长,而计算机硬件诸如CPU、内存等性能的增长速度远远跟不上数据的增长速度,因此传统的单机处理程序已经无法满足数据的处理需求。分布式处理系统应运而生,这是大数据系统的前身。
    大数据系统主要处理大规模(一般指PB级别的数据量)的动态和存量数据,通过大量数据的读取和分析,能够从中找出人们从未关注到的甚至没有想到的 事物之间的关联关系,并以此为人们日常生活以及各种生产活动提供必需的决策支持。
    对于大数据系统的运作原理,我想从一个设计者的角度来思考:
    要清晰的知道,不论大数据系统功能多么强大,性能多么NB,体系如何庞杂,它本质上依然和传统软件的运作模型是一样的:I-P-O,没错,就是输入-计算-输出。以MapReduce为例,输入就是各taskStracker在本地各自读取数据分片;而计算过程有2大的步骤:1是map进程阶段将原始数据进行初步合并计算,并将得出的结果发给reduce进程,我把这个过程称为预处理,预处理后的数据量会降低到网络可以承受的地步;2是reduce收到map传来的预处理数据,并进行最终合并计算;输出部分:reduce进程将最终计算的结果保存到HDFS(本地数据块),并由HDFS将所有reduce保存的数据块合并成一个HDFS文件。你看,这个过程是不是就是一个IPO过程?只不过每个具体过程的执行者以及数量发生了改变。
    OK,弄清楚了基本运作模型,接下来就是考虑:针对大规模数据分散存储(先不考虑实时数据哈)在大量服务器上的数据存储背景,如何设计一款软件,能够高效读取、处理这些数据,并有效输出呢?
    首先是数据读写。现在大家都清楚,在数据规模达到PB级别的情况下,如果使用集中读取,集中处理的方式,单机的硬件和网络根本承载不了。所以最好的办法就是让数据所在的服务器自行读取本地数据并进行计算,然后将每个服务器计算结果汇总后在写入本地,当然所有服务器写入本地的数据最终又会汇总成为一个可以被识别的输出文件。那么如何让每台服务都知道自己应该读哪个数据,输出时又该如何写入呢,写入之后又如何能够合并成一个可以识别的输出文件呢?分布式文件系统就是一个很好的解决方案。(这就是HDFS的由来)
    其次是数据计算。前面说过,我们要让数据所在的服务器自行读取文件在本地的数据块,并进行计算。首先是本地读取完数据块后,执行的初步计算并得出结果;然而问题来了,在所有本地服务计算完成后,他们的计算结果中一般都存在维度重叠的问题(即服务器1计算结果中有A B C三个维度统计数据,而服务器2中有A C D E4个维度的数据,此时不能直接将各服务器的结果写入输出文件),因此还必须将这些计算结果进一步合并,以保证每个维度的key是唯一的。因此计算过程应该有两部分任务组成:一是本地服务器计算统计后得出初步结果(也叫中间数据);二是对这些中间数据进行最终合并计算。Hadoop的大部分计算框架基本都是这两部走的,只是具体执行方式不太一样罢了(比如spark会把中间数据放在内存中而不是HDFS从而提高运行速度等)
    嘿嘿,弄清楚了设计原理,大家在回去看看李老师的课程,比如HDFS,MapReduce之类的,是不是感觉容易理解多了呢
    本人今年刚转大数据,李老师的课是我学习的第一门大数据课程,刚到第十章,今后每隔几章我都会写一篇心得和大家分享,也请老师多多指教哈

    作者回复: 👍🏻

    2019-01-08
    2
    15
  • 老男孩
    老师,我还有一个问题。有点不好意思问……大数据的学习是否还要学习掌握一些高深的算法?您也说了hadoop只是一个工具,具体的业务场景是不是还要用对应的算法模型去挖掘出有价值的数据?我的一个同事昨天略带藐视语气对我说,只有研究生学历的才能研究大数据。数学不行的,还是老老实实写你的业务代码。想到自己是学渣,尽无言以对,当场懵逼了。

    作者回复: 并不是,后面专栏会讲算法。有可能你跟我一样,数学不好,是因为不明白数学有什么用,学了算法,明白了用途,说不定数学也好了。

    2018-11-20
    10
  • 小辉辉
    非常赞同老师说的要构建自己的知识体系,当然还有思维体系。刚刚入行做程序员那时候,自己也想着平时要去积累一些知识,买过书和视频。但是每次都是碰到一个东西,觉得这东西我会,但是一但动手了,好像觉得自己啥都不会,看完的书和视频也是看完了就忘了。最后是努力的把自己感动的一塌糊涂,完了东西又没学进去,中间有段时间也是很迷茫的,想学点什么,又不想去学。从刚入行到现在差不多也有6年了,经过慢慢的积累,有了自己的学习方式和思考方式,也在慢慢的构建自己的知识和思维体系,来学老师的这个专栏也希望自己的知识和思维更进一步。
    2018-11-22
    7
  • 毛毛
    计算机知识更新迭代非常快速,如果你只是什么技术新就学什么,或者什么热门学什么,就会处于一种永远在学习,永远都学不完的境地。

    这句话很真实,感觉现在技术迭代太快了,并且门槛也不高,IT行业靠经验值、阅历的工作也越来越少。实际工作中,做一颗螺丝钉,工作之余不敢懈怠,要努力学习`造航母`的知识。
    2018-11-20
    5
  • 风之翼
    补充一点忘了说了,就是调度的问题(YARN)。前面说过,要让数据所在的服务器自行读取本地数据并进行计算。那么这里有几个问题:1、由谁来确定任务需要的数据文件分布在哪些服务器上呢?2、如果数据块所在的服务器正忙于其他事物,无暇顾及新分配的任务该怎么办呢?3、任务程序如何进入数据块所在服务器并自动执行的呢?于是就得引入任务调度模块,该模块必须具备以下功能:1、能够实时查询数据文件分布在哪些服务器上;2、能够实时监控各个服务器的运行状态,以便分配任务;3、如果发现数据块所在的服务器比较繁忙,就得用完善的调度算法,把任务分配给其他空闲服务器,并主导目标数据块的传输;4、当目标服务器获得分配的任务后,能够自动加载并执行该任务程序;最后,当所有合并计算完成后,还能够将各服务器写入的数据块合并成一个可读文件。在Hadoop1时期,这些功能由MapReduce兼任,后来的版本中被单独剥离出来,并加强了一些功能,便形成了yarn(比如yarn使用容器作为服务器资源的最小单位,每个容器分配一定的cpu,内存资源,每个节点服务器根据其硬件配置,启动若干容器,这些容器的运行状态被资源管理器实时掌握)。
    2019-01-08
    4
  • 落叶飞逝的恋
    学习大数据不仅仅局限于新的技术,而且需要利用原有的知识体系进行融会贯通这种很重要!
    2018-11-20
    3
  • godtrue
    本文核心观点:
    1-1:我们能从 Hadoop 中学到的第一个经验就是识别机会、把握机会。有的时候,你不需要多么天才的思考力,也不需要超越众人去预见未来,你只需要当机会到来的时候,能够敏感地意识到机会,全力以赴付出你的才智和努力,就可以脱颖而出了。
    能够敏感的意识到机会——这个其实不是那么容易做到,很多时候对于机会大部分人都是熟视无睹的,为什么?当时那么多公司,那么多牛人都傻逼吗?我解释不了,但有一点我能确定,那就是不管他们想没想过,他们没有实践或者没有成功的实践。我觉得如果对什么事情有敏锐的意识,首先,老早的就有机会在思考这个东西,其次,一旦有任何机会就马上去做,经过几次迭代也许就能搞出一个牛逼的东西出来。
    1-2:我们从 Hadoop 中可以学到大数据领域的一个架构模式,也就是集中管理,分布存储与计算。这种模式随处可见,比如:我们小组一个leader多为成员,leader负责对外交互和路由工作,组员负责具体实现,这样整个小组都比较高效,如果各自为战,那对外交互的工作就多了,而且什么都有会什么都要懂什么都要负责。不过路由算法很关键,特别对于人,如果工作安排不合理,会导致大家都不满意,效率也就低啦!
    1-3:我是希望你在学习大数据的时候,不要仅局限在大数据技术这个领域,能够用更开阔的视野和角度去看待大数据、去理解大数据。这样一方面可以更好地学习大数据技术本身,另一方面也可以把以前的知识都融会贯通起来。
    计算机知识更新迭代非常快速,如果你只是什么技术新就学什么,或者什么热门学什么,就会处于一种永远在学习,永远都学不完的境地。
    如果这些知识点对于你而言都是孤立的,新知识真的就是新的知识,你无法触类旁通,无法利用过往的知识体系去快速理解这些新知识,进而掌握这些新知识。你不但学得累,就算学完了,忘得也快。
    所以不要纠结在仅仅学习一些新的技术和知识点上了,构建起你的知识和思维体系,不管任何新技术出现,都能够快速容纳到你的知识和思维体系里面。这样你非但不会惧怕新技术、新知识,反而会更加渴望,因为你需要这些新知识让你的知识和思维体系更加完善。
    还有的时候,你学一样新技术却苦苦不能入门,可能仅仅就是因为你看的文章、书籍本身写的糟糕,或者作者写法跟你的思维方式不对路而已,并不代表这个技术有多难,更不代表你的能力有问题,如果换个方式、换个时间、换篇文章重新再看,可能就豁然开朗了。
    首先,我要非常感谢老师,因为,一方面给了思路,另一方面给了信心和极佳的学习体验。
    老师的《大型网站技术架构:核心原理与案例分析》我也学习过,通俗易懂,循序渐进,这八个字只有大牛才能做的把复杂的东西简单易懂的讲给他人。让我信心倍增,也一下子懂了互联网的大概技术,有一种醍醐灌顶的感觉。
    我想说,我其实在极客时间订阅了几十门课,虽然一直在学,但是大部分还没学,而且我觉得我是永远学不完的,除非极客时间倒闭不更新了,因为出一个,我好像习惯了就想买一个,我变成了心甘情愿的韭菜,任由你们这些技术大牛来收割。之所以这样,我觉得买下来不费钱只要我坚持学下去就是值得的,另外买了令我安心,不学习那是不可能的,看书效率低,跟着大牛学习确实高效,另外也有了交流的地方,评论区也卧虎藏龙。
    不过最终让我成为韭菜的原因有两个,一个是计算机基础原理,一个是英语,如果有牛人出这些专栏我会继续买,专栏买多了看多了,我至少有一样能力增强了,清楚那些出专栏的老师水平不行,至少讲课的水平不行,另外,发现好多重复的讲解,这时就有趣了,老师们的水平有极客时间来保证,不过同一个东西,有人讲的通俗易懂有完整的体系结构,有的讲解就比较晦涩,可见相对而言讲师中也有水货。
    我之前专门补了一下,计算机组成原理、计算机网络原理、计算机操作系统原理、数据结构与算法这些基础知识,发现再学习某些专栏就简单多了,都能发现有些知识讲的有些突兀,其实如果能循序渐进的学习,就会少很多不快的感觉。
    不过也必须承认,人是不同的,有些人就是聪明,看书快记忆力极佳反应灵敏思维逻辑缜密。我们小组去年招了五位名校研究生,其中两位就有这样的特点,进步非常快,我工作好久了,感觉我很快就会被秒杀了!他们能直接英文文档英文书,国内的几乎不看,就这一点我就完败,我只能磕磕绊绊的,时间允许我觉得我必须报个班,重新学习下。
    2019-09-27
    2
  • we
    不要纠结在仅仅学习一些新的技术和知识点上了,构建起你的知识和思维体系,不管任何新技术出现,都能够快速容纳到你的知识和思维体系里面。这样你非但不会惧怕新技术、新知识,反而会更加渴望,因为你需要这些新知识让你的知识和思维体系更加完善。
    2019-04-18
    2
  • yzwall
    这篇文章字字珠玑,技术思考比技术讲解更重要。
    2018-11-22
    2
  • 纯洁的憎恶
    大数据架构中大量出现了一主多从的形式,这似乎与去中心化、自底向上的自组织体系还有较大距离。这会是大数据的潜力所在么?还是说万事万物都不能绝对,无论去中心化还是中心化,都要达到某种平衡,才能有效运转?

    作者回复: 去中心,自组织的成本会更高;中心可靠高效的情况下,有中心效率更高。参考区块链,也可以参考现实世界。

    2018-11-20
    2
  • hua168
    想不到大神是这么负责的人,不仅告诉我们技术,更重要是告诉我们思想!每条留言都认真看,佩服!
    看完了hadoop给我最大提示是:使用就是硬道理,机会来了你站在风口上,成功了!

    作者回复: 加油

    2018-11-20
    2
  • 长期规划
    老师,我是做Python后端开发的,我发现很多开源服务比如zookeeper,Hadoop等等都用Java写的,用Py写的比较少,我现在技术到了一个瓶颈期,想学一些有深度的开源服务,Py的一些库已经看过了。请老师支招,难道必须学Java吗

    作者回复: 大数据技术一方面是系统和平台,Hadoop、Spark这些,都是Java开发的;另一方面的是算法和应用,各种机器学习框架和算法库,很多python的,你可以关注这些。

    2019-08-27
    1
    1
  • hua168
    看到hadoop我就想起了openstack,现在云计算公司那么多,还有必要学openstack吗?看到HDFS我就想起了对象存储,现在开源的对象存储有哪些呀?可以用在生产环境的…最后想到学习大数据是不是要学一门编程语言?我看很多大数据的教程都是用Java,python用于爬虫,机器学习,AI方面比较多。有一小部分人说java会慢慢被淘汰,建议不要学,未来几十年应该不会被淘汰吧?

    作者回复: 要学编程,你思考很多,很好,但是还是要自己动手,再能真正明白。

    2018-11-20
    1
  • 🐱您的好友William🐱
    目前我感触最深的话就是雷军那句:“不要用战术上的努力掩饰战略上的懒惰。”,其实人都是太“聪明”了,用各种各样的手段回避思考和思考带来的不确定性。
    2018-11-20
    1
  • 老男孩
    很受启发。第一模块不仅学到大数据的知识,还让我重新理解了以前的一些错误观点。期待下文,快快发啊!这样一天看一点真不过瘾。

    作者回复: 谢谢

    2018-11-20
    1
  • 小苏饼
    hdfs不是一个active一个standny的namenode吗保持HA的高可用,这算一个namenode还是两个namenode啊 😂为什么文中说一个namenode,yarn也是用两个呀😳

    作者回复: 逻辑上是一个,当我们讨论系统流程逻辑的时候,就说是一个。当我们讨论ha的时候,就是两个。
    这也是一种抽象。

    2018-11-20
    1
    1
  • 小毛
    老师,看完第8和第9章之后有些疑惑,第8章中说MapReduce计算框架有JobTracker和TaskTracker来管理和调度资源,JobTracker本身是个主控者,会管理和调度TaskTracker。而第9章的Yarn又是一个资源调度框架。请问这两者是怎么结合的?

    作者回复: Yarn就是替代JobTracker和TaskTracker的,用了Yarn就不需要这两个常驻进程了。

    2019-12-10
  • ℡人见人爱浩然君゜
    具体细节和原理没有讲,老师是不是应该讲下技术具体的细节呢?
    2019-10-17
收起评论
30
返回
顶部