• 云学
    2018-06-21
    我们公司也在用这套方法,这套方法其实就是多设计一些异常case,系统能够依然保持稳定,当然正常的case也是很重要的。

    作者回复: 知道这套方法论的公司不多,说明你们公司技术比较厉害👍

    
     26
  • yason li
    2018-06-21
    请教老师:
    根据网上查到的资料发现,经过多年的演进FMEA从定性和定量两个维度分别延伸出了FMECA和FMEDA,实际进行架构分析时是不是使用FMECA会更好一些?
    还有就是FMEA分析貌似比较适合系统中单点故障的评估。如果系统比较复杂完成故障的原因有可能是多点同时互相影响那么评估时候是不是使用FTA 故障树分析更合适呢?

    作者回复: 1. 我也是看了你的评论才知道还有FMECA和FMEDA,我查了一下资料,其实都是FMEA的扩展版,其实我们在具体实践的时候,分析纬度已经包括FMECA中的危害性分析(文中的“严重程度”),以及FMEDA中的诊断分析(文中的“已有措施”)

    2. FTA我理解是一种故障影响分析方式,例如FMEA中分析“故障影响”

    
     13
  • 小喵喵
    2018-07-28
    MySQL 主备机,当业务服务器检测到主机无法连接后,自动连接备机,这个是需要这程序来感知主机是否联通的吗?若是,这个怎么写这个程序呢?还有如何自动切换到备机呢?我基础太差了,谢谢老师的每次回答我的问题。

    作者回复: 1. java有jdbc异常,你可以详细看看,其他语言类似
    2. 切换到备机其实就是重新连接备机,jdbc中的getconnection

    
     4
  • 王宁
    2018-07-07

    HDFS可以从
    网络原因分片传输
    存储分片大小
    DataNode故障
    NameNoe故障
    如果两个NameNode都出现问题这个时候就需要人工介入了吧。
    展开

    作者回复: 是的

    
     4
  • 邱昌ོ
    2018-07-11
    老师,Mysql响应慢超过5秒,是如何做出影响60%的结论? 实际应用中这种如何评估?

    作者回复: 根据业务具体情况评估,不是绝对的

    
     2
  • 王磊
    2018-06-21
    hdfs
    对于datanode failure, hdfs的应对方式是数据存在多份拷贝,当某个结点down掉后,系统会检测到 under replication, 数据的其他拷贝会在其他可用结点上再增加一份拷贝;
    对于那么node failure,hdfs
    的应对方式是secondary namenide.

    作者回复: 两个namenode挂掉呢?

    
     2
  • Hook
    2018-06-21
    请教老师:
    FMEA 实战表格中(正文的倒数第二张图),故障原因是 “MySQL 服务器断电” 对应了 2 个功能点,分别为:登录、注册。
    其中,“登录”功能点它的“后续规划”列中写的是“增加备份 MySQL”,而“注册”功能点对应的是“无,因为即使增加备份机器,也无法作为主机写入”。
    我的问题是:
    “注册”功能点对应的后续规划可不可以是:“增加 mysql 主从切换功能”呢?老师写“无”是从什么角度来思考“后续规划”的。

    作者回复: 确实可以这么做,但有些场景没必要做这么复杂,注册不了过段时间注册就可以了😄

    
     2
  • 金蝉子
    2019-05-17
    FMEA分析表:
    1、功能点;2、故障模式;3、故障影响;4、严重程度;5、故障原因;6、故障概率;7、风险程度;8、已有措施;9、规避措施;10、解决措施;11、后续规划
    
     1
  • 花花大脸猫
    2019-04-23
    如果一个公司的架构师连公司本身的业务都不清楚的情况下,直接进行架构设计,这样做出来的架构能用么?是不是您所说的PPT架构师?

    作者回复: 不是,PPT架构师一般指业务很熟,画框图很厉害,各种技术术语也很熟,但是技术细节和实现不懂

    
     1
  • 小喵喵
    2018-07-28
    如何在SQL SERVER中找慢查询语句呢?你说log配置,怎么配?谢谢

    作者回复: 请上网搜索😊

    
     1
  • 王宁
    2018-07-07
    这个名词虽然不熟悉,不过这几个步骤在风险管理里面很熟悉。
    风险程度=严重程度*故障概率等。
    
     1
  • Geek_88604f
    2019-09-11
    实战例子中的初始架构还存在如下故障模式:应用服务器故障、缓存和DB中数据不一致、缓存本身可能击穿或血崩都需要自己架构层面考虑。
            改进后的架构又会引入新的问题,主备发生脑裂、倒换时延要求是否满足SLA等架构上的考虑
    
    
  • godtrue
    2019-08-30
    第一次听说这个,长见识了,实际工作中也会分析下系统是否高可用,不过没这个系统,主要集中在代码逻辑层面。
    FMEA——故障模式与影响分析。

    作者回复: 很有用的方法

    
    
  • gkb111
    2019-02-26
    fnea方法,功能点,故障模式,故障原因,等,影响程度,改进措施等
    
    
  • 小喵喵
    2018-10-08
    如何做容错机制呢?
    比如for (int i = 0; i < length; i++)
                {
                    try
                    {

                    }
                    catch (Exception)
                    {
                        
                     
                    }
                }
    这个也算吗?及时程序中一项出现异常,依然会跑完。
    展开

    作者回复: FMEA是架构层的容错,不是代码层的错误和异常处理

    
    
  • 森
    2018-09-19
    MySQL主备,主机挂掉了,连接备机。有这方面的插件,还是在配置里写死?修改配置为备机的漂移IP重启服务。谢谢老师解答,没有做过这方面的东西

    作者回复: MySQL部分有讲呢,一般用中间件,也可以自己开发

    
    
  • 文竹
    2018-08-22
    客户端读/写:故障现象为无法读/写成功,故障原因为超过一天的读/写kerberos认证失效,解决措施为在认证token过期前刷新认证token。

    
    
  • 小喵喵
    2018-07-28
    FMEA除了分析高可用,也能分析其他架构吗,比如高性能,冗余等架构?

    作者回复: 不能,只适合分析高可用

    
    
  • 小喵喵
    2018-07-28
    什么情况下检测告警呢?能举例几个说明一下么?

    作者回复: 简单来说,所有可能故障的地方都要检测和告警

    
    
  • 小喵喵
    2018-07-28
    比如我想超过三秒查不出结果就预警给相关的负责人,这个能在log里面配置吗

    作者回复: 肯定可以的😄

    
    
我们在线,来聊聊吧