• we
    2019-08-21
    老师,发生单比特翻转,只是内存质量与外部射线的原因吗?那买内存的时候,能不能检测到这样的问题的内存。
    ECC 目前只能在物理内存里实现吗,

    作者回复: we同学,

    你好,单比特翻转不一定是内存质量问题,是我们物理设备本身必然会有精度、工艺以及外部其他干扰信号会带来的问题。ECC也可以在软件层面实现,只是从设计大型系统的角度来讲,我们把这个直接隔离到硬件层面对软件工程师来说是投资回报比最高的。

    
     4
  • 明翼
    2019-08-25
    这个bug牛逼了
    
     3
  • 有铭
    2019-08-21
    从老师的描述看单比特翻转问题的概率不低啊,但是大部分PC机都没有用ECC,为什么PC机很少听说有出现这个问题带来的bug?

    作者回复: 有铭同学,

    你好,这有两种情况:
    1. 第一种是PC实际的负载比服务器低很多,大部分时间你的PC是很空闲的,CPU占用率和内存使用率都不高,也没有什么东西在计算。而服务器常常是24小时高负载在运转的。服务器可能一天进行的计算量比你PC一年还多。数据中心里又有可能同时有1000台计算机,意味着服务器一天遇到的问题可能PC要一辈子才遇到一次。

    2. 第二是很多时候发生了你没有意识到,比如程序忽然Crash了,机器蓝屏重启了,甚至有程序数据错了,你并会关心到哪个是单比特翻转引起的。

     3
     3
  • 大王叫我来巡山
    2019-12-19
    曾经一个批次的服务器上线后都就频繁出现这个问题,最终猜测是内存的问题,然后统一换了内存以后没有出现过。

    作者回复: 👍

    
     1
  • loser
    2019-12-13
    计算机领域有太多的未知的未知知识。
    
     1
  • xindoo
    2019-08-21
    之前好像看到过google大神jeff dean也处理过单bit翻转的故障

    作者回复: xindoo同学,

    你好,数据量和负载上来,没有ECC的话,单比特翻转其实是一个大概率发生的故障。

     1
     1
  • -_-_aaa
    2020-01-20
    "定制的硬件没有使用 ECC 内存,在大量的数据中,内存中出现了单比特翻转(Single-Bit Flip)这个传说中的硬件错误",出现这个问题硬件厂商负责吗?还是后果都自负。

    作者回复: -_-_aaa同学,

    你好,当然是后果自负。

    
    
  • prader
    2019-10-17
    没想到内存里的数据在受到射线等外部数据的影响还会出错。幸好有ecc,期待下节课
    
    
  • 活的潇洒
    2019-09-15
    不管多慢、都要坚持打卡、坚持写博文
    day49天 笔记:https://www.cnblogs.com/luoahong/p/11498124.html
    
    
  • 阿卡牛
    2019-08-22
    最近在学网络分层方面的知识,看到检错码和纠错码的方法,没想到在这里也用上了

    作者回复: 是的,计算机科学的底层很多知识是相通的

    
    
  • 许童童
    2019-08-21
    期待老师下一讲的内容。
    
    
  • leslie
    2019-08-21
    学习了:打卡,坚持学习。
    
    
  • humor
    2019-08-21
    为什么只会发生单比特翻转不会发生多个比特位的翻转呢

    作者回复: humor同学你好

    也会发生,但是概率要小很多。比如单笔特翻转发生的概率是0.01%,那么两个比特都翻转概率就是0.000001%。 要解决这个问题成本会进一步大幅度上升,就没有必要在硬件层面这么干了。

    
    
我们在线,来聊聊吧