大数据经典论文解读
徐文浩
bothub创始人
新⼈⾸单¥59
1202 人已学习
课程目录
已更新 4 讲 / 共 36 讲
0/4登录后,你可以任选4讲全文学习。
课前导读 (3讲)
开篇词 | 读论文是成为优秀工程师的成年礼
免费
01 | 什么是大数据:从GFS到Dataflow,12年大数据生态演化图
02 | 学习方法:建立你的大数据知识网络
基础知识篇:Google的三驾马车 (1讲)
03 | The Google File System (一): Master的三个身份
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

03 | The Google File System (一): Master的三个身份

你好,我是徐文浩。从今天开始,我们就正式地来一起解读和学习大数据领域中,一些经典的论文。这节课,我们就从“The Google File System”这篇论文开始。
这篇论文发表在 2003 年,现在来看,它算是一篇“老”论文了。然而在我第一次看到这篇论文的时候,它可代表着强大而神秘的黑科技。
在这篇论文发表之前,工业界的分布式系统最多也就是几十台服务器的 MPI 集群。而这篇 GFS 的论文一发表,一下子就拿出了一个运作在 1000 台服务器以上的分布式文件系统。并且这个文件系统,还会面临外部数百个并发访问的客户端,可以称得上是石破天惊。
当然,在 18 年后的今天,开源社区里的各种分布式系统,也都远比当初的 GFS 更加复杂、强大。回顾这篇 18 年前的论文,GFS 可以说是“技术上辉煌而工程上保守”。说 GFS 技术上辉煌,是因为 Google 通过廉价的 PC 级别的硬件,搭建出了可以处理整个互联网网页数据的系统。而说 GFS 工程上保守,则是因为 GFS 没有“发明”什么特别的黑科技,而是在工程上做了大量的取舍(trade-off)。

GFS 的设计决策

在我看来,GFS 定了三个非常重要的设计原则,这三个原则带来了很多和传统的分布式系统研究大相径庭的设计决策。但是这三个原则又带来了大量工程上的实用性,使得 GFS 的设计思路后续被 Hadoop 这样的系统快速借鉴并予以实现。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/1000字
划线
笔记
复制
该试读文章来自付费专栏《大数据经典论文解读》,如需阅读全部文章,
请订阅文章所属专栏新⼈⾸单¥59
立即订阅
登录 后留言

精选留言(3)


  • 1. 为了减少master的压力,所以要缓存master上的元数据信息。应该会造成读过期数据,因为写入不可变,但支持追加写,对于追加写入的chunk的元数据,怎么同步到客户端缓存按照GFS简单性的原则怕是不想做了。

    2. 每个chunkserver会上报自己拥有哪些chunk。原因的话,chunkserver必然有这个信息,如果master还持久化的话,突然冒出个数据一致性的问题得考虑,数据链路上也会更复杂。
    2021-09-24
    1
  • 毛梨子
    问一个初级问题哈~ 老师说:“master 的数据都会通过操作日志和 Checkpoints 持久化在硬盘上”,具体是把什么数据持久化在硬盘上? 比如,是“全路径文件名到多个 chunk handle 的映射关系“吗?这个不是在写请求时直接持久化在硬盘上吗?不是直接落盘的话,是采用的二段式提交?
    2021-09-24
  • pedro
    mit6.824在讲GFS的时候说,GFS并没有什么理论创新,但是它一下子搞了1000多台机器的集群,对其它论文而言完全是降维打击,然后它就被会议接收了。
    2021-09-24
收起评论
3
返回
顶部