你好,我是徐文浩。今天这一讲,我们接着来学习 GFS 论文中第二个重要的设计决策,也就是根据实际的硬件情况来进行系统设计。
大数据系统本就是为“性能”而生的,因为单台服务器已经满足不了我们的性能需要。所以我们需要通过搭建成百上千台服务器,组成一个大数据集群。然而,上千台服务器的集群一样有来自各种硬件性能的限制。
在单台服务器下,我们的硬件瓶颈常常是硬盘。而到了一个分布式集群里,我们又有了一个新的瓶颈,那就是网络。
那么在这一讲里,我们就来看看网络层面的硬件瓶颈,是如何影响了 GFS 的设计的。在学完这一讲之后,希望你能够理解,任何一个系统设计,都需要考虑硬件性能。并且学会在对自己的设计进行评估的时候,能够寻找到系统的硬件瓶颈在哪里。
GFS 的硬件配置
不知道你有没有想过,2003 年的 GFS 是跑在什么样的硬件服务器上的呢?论文的第 6 部分还真的透露了一些信息给我们。Google 拿来做微基准测试(Micro-Benchmark)的服务器集群的配置是这样的:
19 台服务器、1 台 master、2 台 master 的只读副本、16 台 chunkserver,以及另外 16 台 GFS 的客户端;
所有服务器的硬件配置完全相同,都是双核 1.45 GHz 的奔腾 3 处理器 + 2GB 内存 + 两块 80GB 的 5400rpm 的机械硬盘 + 100 Mbps 的全双工网卡。
然后把所有的 19 台 GFS 集群的机器放在一台交换机上,所有的 16 台 GFS 的客户端放在另外一台交换机上,两台交换机之间通过带宽是 1Gbps 的网线连接起来。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
0/1000字
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《大数据经典论文解读》,如需阅读全部文章,
请订阅文章所属专栏,新⼈⾸单¥59
立即订阅