从 0 开始学大数据
智能时代你的大数据第一课
李智慧  同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者
专栏
已完结·共 47 讲
|
7.1w 人已学
|
收藏
Hadoop MapReduce 简单粗暴地根据 shuffle 将大数据计算分成 Map 和 Reduce 两个阶段,然后就算完事了。而 Spark 更细腻一点,将前一个的 Reduce 和后一个的 Map 连接起来,当作一个阶段持续计算,形成一个更加优雅、高效的计算模型,虽然其本质依然是 Map 和 Reduce。但是这种多个计算阶段依赖执行的方案可以有效减少对 HDFS 的访问,减少作业的调度执行次数,因此执行速度也更快
来自:13 | 同样的本质,为何Spark可以更高效?
12 人划过
我们常常意识不到问题的存在,直到有人解决了这些问题。
来自:12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
10 人划过
我们从 Hadoop 中可以学到大数据领域的一个架构模式,也就是集中管理,分布存储与计算
来自:10 | 模块答疑:我们能从Hadoop学到什么?
9 人划过
依赖倒转原则”,依赖倒转原则是高层模块不能依赖低层模块,它们应该共同依赖一个抽象,这个抽象由高层模块定义,由低层模块实现。
来自:09 | 为什么我们管Yarn叫作资源调度框架?
8 人划过
RAID 可以看作是一种垂直伸缩,一台计算机集成更多的磁盘实现数据更大规模、更安全可靠的存储以及更快的访问速度。而 HDFS 则是水平伸缩,通过添加更多的服务器实现数据更大、更快、更安全存储与访问。
来自:05 | 从RAID看垂直伸缩到水平伸缩的演化
8 人划过
将程序分发到数据所在的地方进行计算,也就是所谓的移动计算比移动数据更划算。
来自:04 | 移动计算比移动数据更划算
8 人划过
map 输出的时候进行标记,比如来自第一张表的输出 Value 就记录为 <1, X>,这里的 1 表示数据来自第一张表。这样经过 shuffle 以后,相同的 Key 被输入到同一个 reduce 函数,就可以根据表的标记对 Value 数据求笛卡尔积,用第一张表的每条记录和第二张表的每条记录连接,输出就是 join 的结果。
来自:11 | Hive是如何让MapReduce实现SQL操作的?
7 人划过
Hadoop、Storm 的设计理念,其实是一样的,就是把和具体业务逻辑无关的东西抽离出来,形成一个框架,比如大数据的分片处理、数据的流转、任务的部署与执行等,开发者只需要按照框架的约束,开发业务逻辑代码,提交给框架执行就可以了。
来自:15 | 流式计算的代表:Storm、Flink、Spark Streaming
5 人划过
顶尖的公司和顶尖的高手一样,做事有一种优雅的美感。你可以看 Google 一路走来,从搜索引擎、Gmail、地图、Android、无人驾驶,每一步都将人类的技术边界推向更高的高度。而差一点的公司即使也曾经获得过显赫的地位,但是一旦失去做事的美感和节奏感,在这个快速变革的时代,陨落得比流星还快。
来自:预习 02 | 大数据应用发展史:从搜索引擎到人工智能
3 人划过
3. 统一服务:资源管理用 Yarn,安全管理用 Sentry 和 RecordService 细粒度地管理不同用户数据的访问权限。
来自:29 | 盘点可供中小企业参考的商业大数据平台
3 人划过
*精彩内容为该课程各文章中划线次数最多的内容
免费试读
讲师

李智慧

同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者

李智慧,极客时间专栏《后端技术面试 38 讲》作者,同程艺龙交通首席架构师、Apache Spark 代码贡献者,长期从事大数据、大型网站架构的研发工作,曾担任阿里巴巴技术专家、Intel 亚太研发中心架构师、宅米和 WiFi 万能钥匙 CTO,有超过 6 年的线下咨询、培训经验,著有...查看更多
编辑推荐
讲师的其他课程
后端技术面试 38 讲
李智慧
同程艺龙交通首席架构师,前 Intel& 阿里架构师,《大型网站技术架构》作者

46讲 | 37386 人已学习

¥59¥129
李智慧 · 高并发架构实战课
李智慧
同程艺龙交通首席架构师,前 Intel & 阿里架构师,《大型网站技术架构》作者

26讲 | 23297 人已学习

¥59¥99
包含这门课的学习路径

架构师

28门课程 151.9w人学习
看过的人还看了
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283805 人已学习

¥68¥199
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 181001 人已学习

¥98¥399
大规模数据处理实战
蔡元楠
硅谷资深工程师

46讲 | 41612 人已学习

¥59¥99
从 0 开始学架构
李运华
网名“华仔”,前阿里资深技术专家(P9)

66讲 | 152623 人已学习

¥68¥199
趣谈网络协议
刘超
前网易研究院云计算技术部首席架构师

51讲 | 130452 人已学习

¥68¥199
深入剖析 Kubernetes
张磊
Kubernetes 社区资深成员与项目维护者

57讲 | 116762 人已学习

¥68¥199