关于故障复盘和容忍度的问题
蘑菇街技术总监赵成
讲述:初明明大小:3.50M时长:03:49
近日,蘑菇街技术总监赵成发文分享了他们团队在故障复盘和故障容忍度方面的问题,以及改进问题的方法。以下为核心内容,希望对你有所帮助。
黄金三问——如何更好的聚焦改进
故障复盘往往被我们开成了批斗会,原因就在于我们把故障复盘的目的搞错了。总想着找人背锅,把自己的责任撇清楚,而不是聚焦于如何改进上面。或者我们原本的目的是想着改进,但是复盘会开着开着就变味了。那么,遇到这种情况怎么办呢?
首先,问自己三个问题,转移矛盾和冲突的焦点,让我们更加聚焦如何从故障中提升和改进。
第一,故障根因到底什么?
第二,我们做什么、怎么做才能确保下次不会再出类似故障?
第三,我们做什么可以让本次故障时间更短,更快地恢复业务?
然后不断反复的重复三个问题,直至团队成员认为找到了改进的措施。
当然,你可能还听说过 5Why 分析法,就是针对故障至少问 5 个为什么。通常也可以找到比较深层次的原因,或许不是根因,但它比较有针对性。
这个 5Why 的方式其实就是这三个问题的延伸,这三个问题会不断牵引着我们的讨论朝着本质问题深入。从我们团队实践的效果看,黄金三问效果会让讨论更加聚焦。
故障容忍度——业务优先还是稳定优先
关于这个话题,之前我们听到过很多,但大多没有正面 PK 过。从运维、SRE 或基础平台的同事的角度看,稳定一定是优先的,任何时候都不能放弃稳定,但是从业务同事的角度看,业务发展肯定是第一位的,没有发展,光有稳定会有什么用呢。
正好,近期碰到两个类似的交流,观点也相对一致,这里分享一下。
前段时间去 GTLC·台北站做分享的时候,听环球易购的 CTO 乔总分享,提到环球易购正处于高速发展阶段,业务迭代速度快,基础设施变化也比较大。这个过程中也会遇到大大小小的故障,但面临一个取舍问题:到底是减缓业务开发的节奏,投入一定的时间和人力,针对一个个故障作分析、改进,做好定责和绩效绑定,还是保障业务继续往前冲,提高容忍度?
其实,面对这种情况,就保持一个原则,业务在发展,能赚钱,就不要让周边这些小插曲影响了节奏,所以要提高容忍度,不要在这个时候把故障当成重点。
当时乔总做了个假设,如果每天能挣 10 亿,出几个小故障又能怎么样?难道非要把责任定清楚了,纳入到绩效考核里,科学管理才行吗?那么时间成本怎么算?耽误的业务发展收益怎么算?管理不好,对员工的积极性有打击,为竞争对手培养了人才,又怎么办?
再举个例子。近期参加 QCon 讲师演讲经验分享会,跟社交大厂的总监聊天时,据说某个广告业务,虽然跟游戏比算不上最大的印钞机,但是也很赚钱。所以,在他们内部貌似也没人关心系统的故障问题,容忍度极高。
所以,从这两个案例来看,业务发展才是一家公司的命脉,对赚钱和故障这两个方面怎么做权衡,从上面的案例来看,就不难选择了,一定是业务优先。
当然,这里并不是说以上例子中的两个业务和公司会让故障放任自流,而是在业务和故障之间会有一个比较好的权衡取舍,内部仍然会有一些机制来科学地管理故障。
以上就是今天的内容,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 悟赚钱的优先…1
- Geek_2d276a业务优先。1
收起评论