05 | 从RAID看垂直伸缩到水平伸缩的演化
李智慧
该思维导图由 AI 生成,仅供参考
经过前面的预习和上一期我们聊的,大数据技术主要是要解决大规模数据的计算处理问题,但是我们要想对数据进行计算,首先要解决的其实是大规模数据的存储问题。我这里有一个直观又现实的问题想问你:如果一个文件的大小超过了一张磁盘的大小,你该如何存储?
我的答案是,单机时代,主要的解决方案是 RAID;分布式时代,主要解决方案是分布式文件系统。
其实不论是在单机时代还是分布式时代,大规模数据存储都需要解决几个核心问题,这些问题都是什么呢?总结一下,主要有以下三个方面。
1.数据存储容量的问题。既然大数据要解决的是数以 PB 计的数据计算问题,而一般的服务器磁盘容量通常 1~2TB,那么如何存储这么大规模的数据呢?
2.数据读写速度的问题。一般磁盘的连续读写速度为几十 MB,以这样的速度,几十 PB 的数据恐怕要读写到天荒地老。
3.数据可靠性的问题。磁盘大约是计算机设备中最易损坏的硬件了,通常情况一块磁盘使用寿命大概是一年,如果磁盘损坏了,数据怎么办?
在大数据技术出现之前,我们就需要面对这些关于存储的问题,对应的解决方案就是 RAID 技术。今天我们就先从 RAID 开始,一起看看大规模数据存储方式的演化过程。
RAID(独立磁盘冗余阵列)技术是将多块普通磁盘组成一个阵列,共同对外提供服务。主要是为了改善磁盘的存储容量、读写速度,增强磁盘的可用性和容错能力。在 RAID 之前,要使用大容量、高可用、高速访问的存储系统需要专门的存储设备,这类设备价格要比 RAID 的几块普通磁盘贵几十倍。RAID 刚出来的时候给我们的感觉像是一种黑科技,但其原理却不复杂,下面我慢慢道来。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
RAID技术在大规模数据存储方式的演化中扮演着关键角色。从垂直伸缩到水平伸缩,RAID通过提升存储容量、读写速度和可靠性等方面发挥着重要作用。文章介绍了常用的RAID技术原理和特点,以及它们在解决存储容量、读写速度和数据可靠性问题上的应用。此外,还探讨了垂直伸缩和水平伸缩两种计算机发展思路,指出在互联网时代,水平伸缩成为更为重要的发展方向。互联网公司采用水平伸缩,通过不断添加计算机来满足不断增长的用户和数据需求。文章还提到了RAID和HDFS的关系,指出HDFS是将RAID思想应用到分布式服务器集群上的架构思想。总的来说,文章通过对RAID技术和存储方式演化的介绍,帮助读者快速了解大规模数据存储方式的发展过程和技术特点。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》,新⼈⾸单¥68
《从 0 开始学大数据》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(96)
- 最新
- 精选
- Panmax置顶3. 数据可靠性的问题。使用 RAID 0、RAID 5 或者 RAID 6 方案的时候,由于数据有冗余存储,或者存储校验信息,所以当某块磁盘损坏的时候,可以通过其他磁盘上的数据和校验数据将丢失磁盘上的数据还原。 这里应该是 RAID1 吧
作者回复: 实践中一般用raid10,已订正,谢谢指正
2018-11-0815 - yang连续写入:写入只寻址一次 存储位置与逻辑位置相邻 不用多次寻址 随机写入:每写一次 便寻址一次 增加了磁盘的寻址时间
作者回复: 是的
2018-11-08172 - lyshrine老师,为啥通常情况一块磁盘使用寿命大概是一年?磁盘不是能用很多年吗?一年一换成本会不会太高了?
作者回复: 服务器磁盘访问压力大,寿命短 你的电脑常年不关机下小电影,硬盘也坏的快
2018-11-08442 - o°cboy磁盘的读写过程,最消耗时间的地方就是在磁盘中磁道寻址的过程,而一旦寻址完成,写入数据的速度很快。 顺序写入只要一次寻址操作,而随机写入要多次寻址操作。所以顺序写入速度明显高于随机写入。 个人的理解,不正确的地方,还请多多指教。
作者回复: 是的
2018-11-0830 - 杰哥长得帅2. 数据读写速度的问题。RAID 根据可以使用的磁盘数量,将待写入的数据分成多片,并发同时向多块磁盘进行写入,显然写入的速度可以得到明显提高;同理,读取速度也可以得到明显提高。不过,需要注意的是,由于传统机械磁盘的访问延迟主要来自于寻址时间,数据真正进行读写的时间可能只占据整个数据访问时间的一小部分,所以数据分片后对 N 块磁盘进行并发读写操作并不能将访问速度提高 N 倍。 还是不能理解为何不能提高n倍。。。。 还有就是想问下数据校验信息是怎么实现的? 谢谢老师👨🏫
作者回复: 就是异或运算 所有数据的bit位,逐位进行异或,得到的就是校验位。 如果丢失部分数据,用校验数据和其余数据逐位进行异或运算,可到丢失部分数据。 举例,5块磁盘做RAID5,四块磁盘上的bit为:0 1 1 1 ,那么异或计算后,校验位为 1,如果丢失了第一块盘上的bit位0,那么校验位1和其他三块盘上的bit位进行异或运算,可以算出0
2020-03-18218 - yang老师居然回我信息了,好开心! 我最喜欢那种 讲课做事都亲自来的老师! 听了老师四节课了,都是老师自己读,有的话是老师的原汁原味的话,在文稿里没有! 给智慧老师打call!
作者回复: 谢谢
2018-11-0817 - hashmap磁盘寻址是耗时操作,是时间大于写入时间 连续写入,可以寻址一次,然后写入 随机写入,需要寻址多次,然后写入 所以连续写入快 这个问题可以延伸回答,为什么很多数据库索引采用b+树,而不是完全二叉树? 因为b+树的节点包含多个信息,可以连续读写磁盘 有一疑问?RAID技术是实现在哪里? 需要安装软件,还是磁盘的驱动实现
作者回复: 有raid硬件,也有驱动实现
2018-11-0913 - 暴风雪我想问一下,RAID 3的任意一块磁盘损坏,通过其他磁盘的数据修复,是怎么修复的?有点不理解这段话
作者回复: 有一块盘记录校验数据,用校验数据和未损坏盘数据可以计算损坏盘的数据
2018-11-0910 - 格非跟机械磁盘的构造有关,随机读写时,磁头需要不停的移动,时间都浪费在了磁头寻址上
作者回复: 是的
2018-11-086 - LugyedoRAID技术会不会被淘汰
作者回复: hdfs就不用raid 分布式存储一般都不用raid
2018-11-0823
收起评论