从 0 开始学大数据
李智慧
同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者
71151 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 47 讲
智慧写给你的寄语 (1讲)
从 0 开始学大数据
15
15
1.0x
00:00/00:00
登录|注册

05 | 从RAID看垂直伸缩到水平伸缩的演化

通过添加更多的服务器实现数据更大、更快、更安全存储与访问
水平伸缩
单台服务器的多块磁盘上组成阵列
垂直伸缩
添加更多的计算机到系统中
升级计算机
数据可靠性
数据读写速度
数据存储容量
RAID 6
RAID 5
RAID 3
RAID 10
RAID 1
RAID 0
改善存储容量、读写速度、可用性和容错能力
将多块普通磁盘组成一个阵列
传统机械磁盘进行数据连续写入的速度优势
HDFS
RAID技术
水平伸缩
垂直伸缩
RAID技术比较
常用RAID技术
概述
数据可靠性
数据读写速度
数据存储容量
大规模数据的存储问题
大规模数据的计算处理问题
思考题
RAID与HDFS
垂直伸缩 vs 水平伸缩
RAID技术
大规模数据存储的核心问题
大数据技术解决的问题
大规模数据存储方式的演化过程

该思维导图由 AI 生成,仅供参考

经过前面的预习和上一期我们聊的,大数据技术主要是要解决大规模数据的计算处理问题,但是我们要想对数据进行计算,首先要解决的其实是大规模数据的存储问题。我这里有一个直观又现实的问题想问你:如果一个文件的大小超过了一张磁盘的大小,你该如何存储?
我的答案是,单机时代,主要的解决方案是 RAID;分布式时代,主要解决方案是分布式文件系统。
其实不论是在单机时代还是分布式时代,大规模数据存储都需要解决几个核心问题,这些问题都是什么呢?总结一下,主要有以下三个方面。
1.数据存储容量的问题。既然大数据要解决的是数以 PB 计的数据计算问题,而一般的服务器磁盘容量通常 1~2TB,那么如何存储这么大规模的数据呢?
2.数据读写速度的问题一般磁盘的连续读写速度为几十 MB,以这样的速度,几十 PB 的数据恐怕要读写到天荒地老。
3.数据可靠性的问题。磁盘大约是计算机设备中最易损坏的硬件了,通常情况一块磁盘使用寿命大概是一年,如果磁盘损坏了,数据怎么办?
在大数据技术出现之前,我们就需要面对这些关于存储的问题,对应的解决方案就是 RAID 技术。今天我们就先从 RAID 开始,一起看看大规模数据存储方式的演化过程
RAID(独立磁盘冗余阵列)技术是将多块普通磁盘组成一个阵列,共同对外提供服务。主要是为了改善磁盘的存储容量、读写速度,增强磁盘的可用性和容错能力。在 RAID 之前,要使用大容量、高可用、高速访问的存储系统需要专门的存储设备,这类设备价格要比 RAID 的几块普通磁盘贵几十倍。RAID 刚出来的时候给我们的感觉像是一种黑科技,但其原理却不复杂,下面我慢慢道来。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

RAID技术在大规模数据存储方式的演化中扮演着关键角色。从垂直伸缩到水平伸缩,RAID通过提升存储容量、读写速度和可靠性等方面发挥着重要作用。文章介绍了常用的RAID技术原理和特点,以及它们在解决存储容量、读写速度和数据可靠性问题上的应用。此外,还探讨了垂直伸缩和水平伸缩两种计算机发展思路,指出在互联网时代,水平伸缩成为更为重要的发展方向。互联网公司采用水平伸缩,通过不断添加计算机来满足不断增长的用户和数据需求。文章还提到了RAID和HDFS的关系,指出HDFS是将RAID思想应用到分布式服务器集群上的架构思想。总的来说,文章通过对RAID技术和存储方式演化的介绍,帮助读者快速了解大规模数据存储方式的发展过程和技术特点。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(96)

  • 最新
  • 精选
  • Panmax
    置顶
    3. 数据可靠性的问题。使用 RAID 0、RAID 5 或者 RAID 6 方案的时候,由于数据有冗余存储,或者存储校验信息,所以当某块磁盘损坏的时候,可以通过其他磁盘上的数据和校验数据将丢失磁盘上的数据还原。 这里应该是 RAID1 吧

    作者回复: 实践中一般用raid10,已订正,谢谢指正

    2018-11-08
    15
  • yang
    连续写入:写入只寻址一次 存储位置与逻辑位置相邻 不用多次寻址 随机写入:每写一次 便寻址一次 增加了磁盘的寻址时间

    作者回复: 是的

    2018-11-08
    172
  • lyshrine
    老师,为啥通常情况一块磁盘使用寿命大概是一年?磁盘不是能用很多年吗?一年一换成本会不会太高了?

    作者回复: 服务器磁盘访问压力大,寿命短 你的电脑常年不关机下小电影,硬盘也坏的快

    2018-11-08
    4
    42
  • o°cboy
    磁盘的读写过程,最消耗时间的地方就是在磁盘中磁道寻址的过程,而一旦寻址完成,写入数据的速度很快。 顺序写入只要一次寻址操作,而随机写入要多次寻址操作。所以顺序写入速度明显高于随机写入。 个人的理解,不正确的地方,还请多多指教。

    作者回复: 是的

    2018-11-08
    30
  • 杰哥长得帅
    2. 数据读写速度的问题。RAID 根据可以使用的磁盘数量,将待写入的数据分成多片,并发同时向多块磁盘进行写入,显然写入的速度可以得到明显提高;同理,读取速度也可以得到明显提高。不过,需要注意的是,由于传统机械磁盘的访问延迟主要来自于寻址时间,数据真正进行读写的时间可能只占据整个数据访问时间的一小部分,所以数据分片后对 N 块磁盘进行并发读写操作并不能将访问速度提高 N 倍。 还是不能理解为何不能提高n倍。。。。 还有就是想问下数据校验信息是怎么实现的? 谢谢老师👨‍🏫

    作者回复: 就是异或运算 所有数据的bit位,逐位进行异或,得到的就是校验位。 如果丢失部分数据,用校验数据和其余数据逐位进行异或运算,可到丢失部分数据。 举例,5块磁盘做RAID5,四块磁盘上的bit为:0 1 1 1 ,那么异或计算后,校验位为 1,如果丢失了第一块盘上的bit位0,那么校验位1和其他三块盘上的bit位进行异或运算,可以算出0

    2020-03-18
    2
    18
  • yang
    老师居然回我信息了,好开心! 我最喜欢那种 讲课做事都亲自来的老师! 听了老师四节课了,都是老师自己读,有的话是老师的原汁原味的话,在文稿里没有! 给智慧老师打call!

    作者回复: 谢谢

    2018-11-08
    17
  • hashmap
    磁盘寻址是耗时操作,是时间大于写入时间 连续写入,可以寻址一次,然后写入 随机写入,需要寻址多次,然后写入 所以连续写入快 这个问题可以延伸回答,为什么很多数据库索引采用b+树,而不是完全二叉树? 因为b+树的节点包含多个信息,可以连续读写磁盘 有一疑问?RAID技术是实现在哪里? 需要安装软件,还是磁盘的驱动实现

    作者回复: 有raid硬件,也有驱动实现

    2018-11-09
    13
  • 暴风雪
    我想问一下,RAID 3的任意一块磁盘损坏,通过其他磁盘的数据修复,是怎么修复的?有点不理解这段话

    作者回复: 有一块盘记录校验数据,用校验数据和未损坏盘数据可以计算损坏盘的数据

    2018-11-09
    10
  • 格非
    跟机械磁盘的构造有关,随机读写时,磁头需要不停的移动,时间都浪费在了磁头寻址上

    作者回复: 是的

    2018-11-08
    6
  • Lugyedo
    RAID技术会不会被淘汰

    作者回复: hdfs就不用raid 分布式存储一般都不用raid

    2018-11-08
    2
    3
收起评论
显示
设置
留言
96
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部