从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

17 | 模块答疑:这么多技术,到底都能用在什么场景里?

李智慧 2018-12-06
你好,我是李智慧。
经过前面两个模块,我们学习了大数据最经典、最主流的一些技术和产品,今天我们再回过头来梳理一下这些技术和产品。
从上面这张图来看大数据技术的分类,我们可以分为存储、计算、资源管理三大类。
最基本的存储技术是 HDFS。比如在企业应用中,会把通过各种渠道得到的数据,比如关系数据库的数据、日志数据、应用程序埋点采集的数据、爬虫从外部获取的数据,统统存储到 HDFS 上,供后续的统一使用。
HBase 作为 NoSQL 类非关系数据库的代表性产品,从分类上可以划分到存储类别,它的底层存储也用到了 HDFS。HBase 的主要用途是在某些场景下,代替 MySQL 之类的关系数据库的数据存储访问,利用自己可伸缩的特性,存储比 MySQL 多得多的数据量。比如滴滴的司机每隔几秒就会将当前的 GPS 数据上传,而滴滴上的司机数量号称有上千万,每天会产生数百亿的 GPS 数据,滴滴选择将这样海量的数据存储在 HBase 中,当订单行程结束的时候,会从 HBase 读取订单行程期间的 GPS 轨迹数据,计算路程和车费。
大数据计算框架最早是 MapReduce,目前看来,用的最多的是 Spark。但从应用角度讲,我们直接编写 MapReduce 或者 Spark 程序的机会并不多,通常我们会用 Hive 或者 Spark SQL 这样的大数据仓库工具进行大数据分析和计算。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(26)

  • itzzy
    文中老师提到是工作一段时间读研的,我自己也有读研的想法,从现在开始准备,也要1-2年才能考的上,读完研出来33,34了,担心没公司要,互联网还是看重年龄的,特别迷茫,希望老师给些建议,感谢!
    2018-12-06
    1
    27
  • 老男孩
    看到这篇文章,我想起了一首歌《you raise me up》。因为我的背景过往不入流。想想周边工作的同事大多都是好学校毕业的,或者学历很高,感觉到很自卑。就怕别人问我是哪个学校毕业的😑,总是纠结于过往,高中三年为什么不好好读书?有时候想放弃,算了吧我这样的不适合混程序员这行业,不如去做一个歌手。2014年几乎半年在家里待着,不想上班也找不到合适的工作。直到看到《大型网站技术架构》那本书,我犹豫了片刻,因为我担心买了书不看放在家里当装饰品。最后我还是在当当上买了一本,没想到的是,我居然用了三个晚上把这本书读完了!趁热打铁,我用书中的内容知识去找工作,把面试的人都说蒙了。两周后我从新开始了工作。刚开始我对系统的理解只停留在模块组件功能实现,所谓的架构也只是逻辑分层而已。对于大型网站是个什么东西完全没有概念,对了这本书,至少我可以装逼了🤔。所以看到智慧老师的这个专栏,我片刻的犹豫都没有。因为我很怀念当年读完《大型网站技术架构》那本书以后,那种装逼的感觉。😎
    2018-12-08
    2
    11
  • 在路上
    我也是非计算机专业出身,不入流学校毕业,然后通过自己努力并不比别人差,和清华北大毕业的一起工作也不觉得比我强呢,哈哈,跟着老师一起加油。
    2019-01-08
    1
    6
  • 杰之7
    通过过去接近一个月的大数据技术学习,真把老师所授的每一篇文章都认真读过,也写了一些阅读记录,今天我先用自己的话梳理一下自己对大数据架构结构的理解。首先因为有海量数据储存的需求,Google发表的大数据技术的三驾马车的论文,分布式文件系统、分布式计算框架、分布式数据库。然后人们开发了相关的产品。在储存上开发了HDFS、Hbase,在分布式计算框架上开发了基于批处理的Mapreduce、spark的计算框架,数据仓库Spark SQL、Hive,基于流处理的Flink、Spark streaming
    Storm等,在资源调度上有了Yarn,上述的这些技术通过部署在同一集群中完成大数据技术的计算。然后,我写一点我一个月左右的学习感受,没有在学习学习过计算机,真的哪怕我当时学了计算机,一样也是浑浑噩噩,不会有所成绩。现在我开始学习大数据技术,肯定一定会坚持和老师学完并在每一篇文章后面留下我的足迹。就如老师在文章中分享的王小波先生文字那样,人活着就是要感受自身的一些经历,做自身喜欢的事,见到自己喜欢的人,足够了。现在我从零开始学习大数据技术,就是相信我甚至笃信我可以做好这件事,也相信不久或者未来会遇见更多有趣的人和事。也遇见了您,在每一篇文章中,我能通过您的文字理解大数据架构的原理和和技术,把大多数人认为有难度的内容用通俗易懂的方式传授给我们,也渴望在接下来的短暂两个月里继续和您一同学习成长。
    2018-12-06
    6
  • 星辰
    看到我的昵称的时候,还有点小害怕呢! 加油💪!
    2018-12-06
    5
  • godtrue
    😅老师所言感同身受,我也是不入流的学校,但在我们学校我应该算是非常刻苦的学生,学的是计算机及应用,软硬件都有学,不过当时并认识不到这些基础理论的重要性,毕业时都没信心从事编程工作,工作后发现确实如此,工作中使用的技术,那必须一个个重新学。再后来就发现基础没打好,很容易到瓶颈期,英语一样,要么是台阶要么是拦路虎,工作两三年时,都觉得自己不适合编程,不过从农村出来没背景也没有其他更多更好的选择,赶上了好时代,就算以后可能还会踟蹰,现在也必须拼命学习,因为,每次回老家都能深深的体会到和父辈们吃的苦比起来,学习这件事简单的不得了。
    付出时间和精力,带上大脑和心灵,其实就是在旅行,在知识的海洋里,在多线程的工厂里,在大数据的森林里,在分布式的迷宫里,在io的管道里…

    作者回复: 加油

    2019-09-28
    2
  • 追梦小乐
    不甘目前重复业务的工作,工作之余一直在看大数据这一块,决心进入这个领悟去看看有着什么不一样的风景!所以在看到与大数据相关的专栏出来毫不犹豫就买了,一路坚持看下来,之前不太理解的一些知识点有了更进一步的理解,我是通过这个专栏第一次认识了老师,感觉老师不但技术深度高,对人生哲学认知这一块也理解很深刻!
    2018-12-09
    2
  • 走小調的凡世林
    请教下老师,我们有个需求:根据各种自定义规则(比如分辨率、大小等)计算海量资源的分数(资源可以是图片、视频、音频)。总分100,图片分辨率太小或视频太大都要扣分,最后算出一个资源总分,这种需求可以用spark实现吗?主要考虑算分过程可能比较耗时,且资源数量较多。如果可以的话如何实现呢?老师是否可以提供下思路,感谢!

    作者回复: 听起来,在你们这个需求场景中,每张图片的分数计算是独立的,感觉自己开发一个分布式程序就可以搞定。

    这样的场景也可以用Spark,不过因为没有关联计算,计算复杂度比较低,虽然数据量大,但是每张图片都是独立的,其实不复杂,用不用Spark都可以。

    2019-12-01
    1
    1
  • 盖饭
    老师这期答疑,恰如其分的为快要看不下去的人打了个鸡血。
    2019-03-26
    1
  • 风轻扬
    同问关于在职考研,烦请解惑,谢谢
    2018-12-07
    1
  • 往事随风,顺其自然
    能不能多讲些原理性工作
    2018-12-06
    1
  • 🐱您的好友William🐱
    《沉默的大多数》也不错,一次在飞机场买的,坐飞机的过程中看完的,非常好,据说和《我的精神家园》有重复的文章,也可以看一看,开启独立思考新篇章。
    2018-12-06
    1
  • 纯洁的憎恶
    我的硕士方向就是图形学,我当时觉得图形学的成果看起来很好玩,但要做研究都是枯燥复杂的数学公式,我很佩服老师通过兴趣自己学通了计算机和图形学。与老师相比,我可能要算是比较入流大学的不入流的学生,工作已经好几年了,工作内容早已和计算机无关。看着当初一起在实验室通宵的同学们,一个一个都在财富自由的道路上高歌猛进时,我既羡慕又彷徨。不知是不是自己的选择出来问题。
    2018-12-06
    1
  • linazi
    跟着老师 听完 读完 思考完
    终于把之前的大数据碎片概念可以拉成一条线了
    计算 存储 资源管理
    围绕着它们衍生出各种各样的产品 技术 框架
    不再杂乱了
    2018-12-06
    1
  • 王平
    做一些有趣的事情,这个很有感触。作为技术人员,阅读技术文章,往往并不是想解决什么问题。只想看看他在用什么思路解决什么问题。当发现跟你原本推动不谋而合时,就是兴趣所在。而不是兴趣的初级阶段,拿出个demo或者只言片语炫技而已。这大概就是古人常说的道法术的区别。
    2019-12-09
  • iandbeyond
    老师,一直有个问题很困惑,我们是装备制造行业,一台设备的参数有几千个,1秒采集一次数据,持续采集,成百上千台设备,一直想不清楚用HDFS还是HBase来做存储好些。

    作者回复: 如果只是存储,那么HDFS和HBase都可以。关键是看你存储以后做什么用,如果是做离线的数据统计,那么就用HDFS;如果要即时查找,那么就用HBase。

    2019-09-22
    1
  • 周小桥
    木子的话很受用。
    2019-05-24
  • 路平
    《企业应用架构模式》,已下单。
    2019-05-19
  • cwx0220
    我只愿蓬勃生活在此时此刻,无所谓去哪,无所谓见谁。那些我将要去的地方,都是我从未谋面的故乡。以前是以前,现在是现在。我不能选择怎么生,怎么死;但我能决定怎么爱,怎么活。终极一生,到最后不因虚度光阴而悔恨,不因碌碌无为而遗憾。有人和我一样是从帅张那过来的么?😀
    2019-03-04
  • 小美
    老师好,我作为大数据外行,想了解下 HBase 和 HDFS 有啥区别呢,都是做数据存储
    2018-12-10
收起评论
26
返回
顶部