大数据经典论文解读
徐文浩
bothub 创始人
2903 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
推荐试读
换一换
01 | 什么是大数据:从GFS到Dataflow,12年大数据生态演化图
02 | 学习方法:建立你的大数据知识网络
13 | 分布式锁Chubby(二) :众口铄金的真相
课程目录
已更新 49 讲/共 52 讲
课前导读 (3讲)
开篇词 | 读论文是成为优秀工程师的成年礼
01 | 什么是大数据:从GFS到Dataflow,12年大数据生态演化图
02 | 学习方法:建立你的大数据知识网络
基础知识篇:Google的三驾马车 (12讲)
03 | The Google File System (一): Master的三个身份
04 | The Google File System (二): 如何应对网络瓶颈?
05 | The Google File System (三): 多写几次也没关系
06 | MapReduce(一):源起Unix的设计思想
07 | MapReduce(二):不怕失败的计算框架
08 | Bigtable(一):错失百亿的Friendster
09 | Bigtable(二):不认识“主人”的分布式架构
10 | Bigtable(三):SSTable存储引擎详解
11 | 通过Thrift序列化:我们要预知未来才能向后兼容吗?
12 | 分布式锁Chubby(一) :交易之前先签合同
13 | 分布式锁Chubby(二) :众口铄金的真相
14 | 分布式锁Chubby(三) :移形换影保障高可用
数据库篇:OLAP和OLTP,一个都不能少 (10讲)
15 | Hive:来来去去的DSL,永生不死的SQL
16 | 从Dremel到Parquet(一):深入剖析列式存储
17 | 从Dremel到Parquet(二):他山之石的MPP数据库
18 | Spark:别忘了内存比磁盘快多少
19 | Megastore(一):全国各地都能写入的数据库
20 | Megastore(二):把Bigtable玩出花来
21 | Megastore(三):让Paxos跨越“国界”
22 | Spanner(一):“重写”Bigtable和Megastore
23 | Spanner(二):时间的悖论
24 | Spanner(三):严格串行化的分布式系统
实时处理篇:批处理只是流式处理的“特殊情况” (7讲)
25 | 从S4到Storm(一):当分布式遇上实时计算
26 | 从S4到Storm(二):位运算是个好东西
27 | Kafka(一):消息队列的新标准
28 | Kafka(二):从Lambda到Kappa,流批一体计算的起源
29 | Dataflow(一):正确性、容错和时间窗口
30 | Dataflow(二):MillWheel,一个早期实现
31 | Dataflow(三):一个统一的编程模型
复习篇 (10讲)
复习课(一)| The Google File System
复习课(二)| MapReduce
复习课(三)| Bigtable
复习课(四)| Thrift
复习课(五)| Chubby
复习课(六)| Hive
复习课(七)| Dremel
复习课(八)| Resilient Distributed Datasets
复习课(九)| Megastore
复习课(十)| Spanner
加餐篇 (3讲)
加餐1 | 选择和努力同样重要:聊聊如何读论文和选论文
加餐2 | 设置你的学习“母题”:如何选择阅读材料?
加餐3 | 我该使用什么样的大数据系统?
用户故事 (1讲)
用户故事 | 陈煌:唯有自强不息,方能屹立不倒
资源调度篇:Google藏了10年的杀手锏 (3讲)
32 | Raft(一):不会背叛的信使
33 | Raft(二):服务器增减的“自举”实现
34 | Borg(一):当电力成为成本瓶颈
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

34 | Borg(一):当电力成为成本瓶颈

你好,我是徐文浩。
从 GFS 这样的分布式文件系统,到 MapReduce 这样的数据批处理系统;从 Bigtable 这样的分布式 KV 数据库,到 Spanner 这样全球部署的强一致性关系数据库;从 Storm 这样只能做到“至少一次”的流式系统,到 Dataflow 这样真正做到“流批一体”的统一数据处理系统。在过去的 30 多讲里,我和你一起看过了各式各样的大数据系统。
在研究这些大数据系统的时候,我们其实有一个假设。这个假设,就是其中的每一个系统,都需要占用一组独立的服务器。而在一个完整的大数据体系中,我们既需要有 GFS 这样的文件系统,也需要 MapReduce/Spark 这样的批处理系统,还需要 Bigtable 这样的 KV 数据库、Hive 这样的数据仓库、Kafka 这样的消息队列,以及 Flink 这样的流式系统。这样一算,我们需要的服务器可真不算少。

成本 - 混合编排的需求起源

但是,当我们采购了很多服务器,搭建起了一系列的大数据系统,我们又会发现这些服务器在很多时候负载不高,显得非常浪费。因为我们在采购服务器的时候,需要根据平时的峰值流量来确定服务器数量。比如,像 Kafka 这样的消息队列,肯定是在早晚高峰,和中午用户比较多的时候,流量比较大,到了半夜流量就比较小。如果我们高峰时间的 CPU 占用要有 60%,那么在低谷时刻,可能只有 10%。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/1000字
划线
笔记
复制
01 | 什么是大数据:从GFS到Dataflow,12年大数据生态演化图
02 | 学习方法:建立你的大数据知识网络
13 | 分布式锁Chubby(二) :众口铄金的真相
17 | 从Dremel到Parquet(二):他山之石的MPP数据库
24 | Spanner(三):严格串行化的分布式系统
加餐3 | 我该使用什么样的大数据系统?
该试读文章来自付费专栏《大数据经典论文解读》,如需阅读全部文章,
请订阅文章所属专栏新⼈⾸单¥59
立即订阅
登录 后留言

精选留言(1)

  • 那时刻
    请问老师,CGroup进行资源的限制和权限的隔离,而namespace也有权限的隔离,它们的区别是什么呢?
    2022-01-07
收起评论
1
返回
顶部