49 | 数据完整性(上):硬件坏了怎么办?
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
硬件不可靠性引发的Bug可能带来严重后果,如数据处理失败和结果错误。一篇文章介绍了团队在处理数据和机器学习算法时遇到的自定义硬件故障问题,发现是内存单比特翻转错误导致的。解决方案是采用ECC内存来纠正硬件故障带来的影响。此外,文章还介绍了奇偶校验和校验位的原理,以及纠错码和纠删码的概念,为读者提供了对硬件故障处理和数据完整性保障的深入了解。通过这篇文章,读者能了解硬件不可靠性引发的Bug的严重性,以及如何通过技术手段来解决这些问题。
《深入浅出计算机组成原理》,新⼈⾸单¥68
全部留言(24)
- 最新
- 精选
- 有铭从老师的描述看单比特翻转问题的概率不低啊,但是大部分PC机都没有用ECC,为什么PC机很少听说有出现这个问题带来的bug?
作者回复: 有铭同学, 你好,这有两种情况: 1. 第一种是PC实际的负载比服务器低很多,大部分时间你的PC是很空闲的,CPU占用率和内存使用率都不高,也没有什么东西在计算。而服务器常常是24小时高负载在运转的。服务器可能一天进行的计算量比你PC一年还多。数据中心里又有可能同时有1000台计算机,意味着服务器一天遇到的问题可能PC要一辈子才遇到一次。 2. 第二是很多时候发生了你没有意识到,比如程序忽然Crash了,机器蓝屏重启了,甚至有程序数据错了,你并会关心到哪个是单比特翻转引起的。
2019-08-21449 - Frank老师,发生单比特翻转,只是内存质量与外部射线的原因吗?那买内存的时候,能不能检测到这样的问题的内存。 ECC 目前只能在物理内存里实现吗,
作者回复: we同学, 你好,单比特翻转不一定是内存质量问题,是我们物理设备本身必然会有精度、工艺以及外部其他干扰信号会带来的问题。ECC也可以在软件层面实现,只是从设计大型系统的角度来讲,我们把这个直接隔离到硬件层面对软件工程师来说是投资回报比最高的。
2019-08-2121 - 大王叫我来巡山曾经一个批次的服务器上线后都就频繁出现这个问题,最终猜测是内存的问题,然后统一换了内存以后没有出现过。
作者回复: 👍
2019-12-1917 - xindoo之前好像看到过google大神jeff dean也处理过单bit翻转的故障
作者回复: xindoo同学, 你好,数据量和负载上来,没有ECC的话,单比特翻转其实是一个大概率发生的故障。
2019-08-21212 - humor为什么只会发生单比特翻转不会发生多个比特位的翻转呢
作者回复: humor同学你好 也会发生,但是概率要小很多。比如单笔特翻转发生的概率是0.01%,那么两个比特都翻转概率就是0.000001%。 要解决这个问题成本会进一步大幅度上升,就没有必要在硬件层面这么干了。
2019-08-2111 - 阿卡牛最近在学网络分层方面的知识,看到检错码和纠错码的方法,没想到在这里也用上了
作者回复: 是的,计算机科学的底层很多知识是相通的
2019-08-226 - -_-|||"定制的硬件没有使用 ECC 内存,在大量的数据中,内存中出现了单比特翻转(Single-Bit Flip)这个传说中的硬件错误",出现这个问题硬件厂商负责吗?还是后果都自负。
作者回复: -_-_aaa同学, 你好,当然是后果自负。
2020-01-2032 - 明翼这个bug牛逼了2019-08-25127
- 88591计算机领域有太多的未知的未知知识。2019-12-136
- 活的潇洒不管多慢、都要坚持打卡、坚持写博文 day49天 笔记:https://www.cnblogs.com/luoahong/p/11498124.html2019-09-154