• miracle
    2019-11-27
    老师可以每篇最后问答下上篇文章结尾留下的问题吗
     4
     11
  • Geek_22cbf4
    2019-11-28
    老师,针对校验数据的生成过程还是不太理解!能帮忙解释的详细一些么?

    作者回复: 就是异或运算

    所有数据的bit位,逐位进行异或,得到的就是校验位。

    如果丢失部分数据,用校验数据和其余数据逐位进行异或运算,可到丢失部分数据。

    举例,5块磁盘做RAID5,四块磁盘上的bit为:0 1 1 1 ,那么异或计算后,校验位为 1,如果丢失了第一块盘上的bit位0,那么校验位1和其他三块盘上的bit位进行异或运算,可以算出0

     2
     6
  • 奔奔奔跑
    2019-11-27
    老师好,关于为什么P分散存储的问题我认为原因有以下两点:
    1.高可用,避免检验盘损坏了所有都用不了了。
    2.读取速度快,实现了检验数据的并行访问,大大加快了检验速度。
    
     4
  • vouv
    2019-11-27
    校验数据分散存储在不同磁盘上最主要目的是为了提高并发IO
    
     4
  • 龙哥
    2019-11-27
    我觉得螺旋存储校验位是为了提高磁盘使用率,校验位应该比数据块要小。如果校验位只存一块,应该会有数据盘满了,而校验盘还有一大块空间的情况
    
     3
  • golangboy
    2019-11-27
    老师讲的透彻,成体系,感谢!分布式存储对数据的读写,都要经过元数据节点,此后的数据读写能力会提升很多。但元数据节点应该有性能瓶颈问题,找的过程会限制读写能力,请教老师,这种一般怎么处理?

    作者回复: 元数据节点NameNode只提供类似文件控制块的数据读写,数据量非常小,不会成为瓶颈。一个数据块Block大小64M,对应的NameNode控制块数据大概只有几十个字节。

    
     3
  • 禾斗君
    2019-11-27
    主要为了优化数据读取吧,如果校验码都放在同一块硬盘上,那么业务数据读取只有N-1块硬盘可以提供服务。 采用螺旋式分布时,N块硬盘都可以提供服务。
    
     2
  • 老王的老李头
    2019-11-29
    我觉得题目改成,如何完整的将100T的数据存起来,更搭
    
     1
  • Mr.Edge
    2019-12-27
    老师有个问题 RAID 5是每次开机都有去生成校验位吗 我看图上并没有提到备份 如果某个文件校验位为1 说明坏了 到时恢复如何处理?
    
    
  • 灰灰
    2019-12-16
    粗读,打卡。
    
    
  • 蓝魔丶
    2019-12-13
    求证老师一个问题:
    我看网上解释Ext4 文件系统中13级block满满 4K 的指针。Block 指针是 32bit 的,一个 block 可以存储 4K/32bit = 1024个 Block 指针,文中是256个,这个是因为文件系统不同吗?

    作者回复: 32位指针只有4G寻址空间,应该是不够管理硬盘空间的。

    
    
  • 芒果
    2019-12-13
    这样,每个 inode 最多可以存储 12+256+256*25+256*256*256 个数据块

    这里的公式写漏了,应该是12+256+256*256+256*256*256 个数据块

    作者回复: 收到,尽快修正,谢谢~

    
    
  • 木风
    2019-12-06
    均匀的数据分布,可以n个硬盘同时读取,速度更快
    
    
  • Paul Shan
    2019-12-05
    Raid 0 将磁盘并行写入
    Raid 1 就是两块盘互为备份
    Raid 10就是两组硬盘,并行写入,互为备份。
    Raid 5 ((n-1)/n)信息并行写入,1/n信息校验备份
    Raid 6 ((n-2)/n)信息并行写入,2/n信息校验备份
    分布式:无数组信息并行写入,每组自己校验备份。
    展开
    
    
  • gogo
    2019-11-30
    针对校验数据的螺旋式存储 和 真正的数据存储一样 ,也是为了防止某块硬盘坏了 在丢了校验数据 和 某部分真实数据的时候 可以通过其他硬盘上的这部分备份 或 校验数据 来恢复吧
    
    
  • 俊伟
    2019-11-29
    老师,RAID那里图没看懂,D,a,t,p,Q都是什么意思?图有点没太明白。

    作者回复: d a t a表示需要写入RAID的数据,p q表示两种不同校验算法得到的校验数据。

    
    
  • 丁丁历险记
    2019-11-28
    为啥我的硬盘是顺序读3700M
    
    
  •  扬帆丶启航 
    2019-11-28
    校验数据P存储在所有硬盘上,这样每一块数据丢失后都能通过校验数据与其他硬盘的数据进行运算获得丢失的数据。
    
    
  • 老男孩
    2019-11-28
    突然发现专栏的名字好像变了?😁这估计是平台改的,这个名字目的性更强一些吧。今天的内容,老师从文件系统到RAID再到分布式文件系统讲解很系统也很全面。这里我有个问题想问一下,在分布式文件系统中,一个文件被分成多个数据块保存在不同datanode上,而且对这些数据块进行了备份。那么我们是否可以直接用RAID 0的方式把单节点的读写速度扩大N倍?还是采用RAID 5在速度和容错性之间做一个权衡?

    作者回复: HDFS缺省的高可用策略是RAID0,数据会做多个备份,应用可以指定备份数,如果想要加快读的速度,可以增加备份个数。

    
    
  • 苏志辉
    2019-11-27
    因为是每行的校验所以一行一个,为了防止一个坏了影响最小,所以每一块一个
    
    
我们在线,来聊聊吧