18 | 故障处理最佳实践:故障改进
陈皓
该思维导图由 AI 生成,仅供参考
你好,我是陈皓,网名左耳朵耗子。
在上节课中,我跟你分享了在故障发生时,我们该怎样做,以及在故障前该做些什么准备。只要做到我提到的那几点,你基本上就能游刃有余地处理好故障了。然而,在故障排除后,如何做故障复盘及整改优化则更为重要。在这篇文章中,我就跟你聊聊这几个方面的内容。
故障复盘过程
对于故障,复盘是一件非常重要的事情,因为我们的成长基本上就是从故障中总结各种经验教训,从而可以获得最大的提升。在亚马逊和阿里,面对故障的复盘有不一样的流程,虽然在内容上差不多,但细节上有很多不同。
亚马逊内部面对 S1 和 S2 的故障复盘,需要那个团队的经理写一个叫 COE(Correction of Errors)的文档。这个 COE 文档,基本上包括以下几方面的内容。
故障处理的整个过程。就像一个 log 一样,需要详细地记录几点几分干了什么事,把故障从发生到解决的所有细节过程都记录下来。
故障原因分析。需要说明故障的原因和分析报告。
Ask 5 Whys。需要反思并反问至少 5 个为什么,并为这些“为什么”找到答案。
故障后续整改计划。需要针对上述的“Ask 5 Whys”说明后续如何举一反三地从根本上解决所有的问题。
然后,这个文档要提交到管理层,向公司的 VP 级的负责人进行汇报,并由他们来审查。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
故障处理最佳实践:故障改进 文章介绍了在故障排除后的故障复盘及整改优化的重要性。作者分享了亚马逊和阿里在故障复盘过程中的不同流程,以及针对故障的整改方法和原则。在故障复盘过程中,亚马逊要求团队经理编写COE文档,详细记录故障处理过程、故障原因分析和提出故障后续整改计划,而阿里则采用召集相关人员进行复盘的方式。此外,文章还介绍了故障整改方法,作者倾向于采用亚马逊的Ask 5 Whys方法,通过连续追问为什么来找到问题的本质。最后,作者总结了三条工作原则,包括举一反三解决故障、简化复杂的技术架构和全面改善整个系统。文章强调了简化复杂系统的重要性,以及在处理故障时需要从根本上改善整体结构。 这篇文章深入探讨了故障处理的复盘和整改优化,突出了技术和管理两方面的方法。通过分享亚马逊和阿里的不同做法,以及作者的个人经验和观点,为读者提供了宝贵的故障处理经验和启示。文章内容丰富,观点鲜明,对于需要了解故障处理最佳实践的读者具有很高的参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《左耳听风》,新⼈⾸单¥98
《左耳听风》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(65)
- 最新
- 精选
- 杜小琨耳朵大叔,介绍下你对故障判责边界的划分有什么经验和原则。 另外我不认同你对阿里故障惩罚机制不认同的观点,我比较认同人是利益驱动的生物。
作者回复: 发生故障的最佳实践是反思、总结和改善,判责对故障的解决没有因果关系。“人是利益驱动的”没错,但是“利益”和“能力”没有任何关系,处理故障是靠“能力”不靠“利益”,希望你能get到这其中的“因果关系”。
2017-12-151043 - 茎待佳阴我们公司比较奇葩,记得是今年7月的一个晚上,因为那段时间用户量涨得快,所以对服务扩分片,然后,由于需要GO那边的一哥们重启代理,没沟通好,导致,他把代理重启了,我服务还没启动,导致一半的用户无法登陆。CTO当时也在那坐着,起来就把键盘摔了,在那骂半天。之后线上故障了基本也都是这样,只要出问题,就用骂来解决问题,表示问题跟领导没关系。2018-01-0619111
- z_sz做得越多,错得越多,隔壁组一个男生就是因为这个考核很差愤而离职了……2018-03-03360
- 不会跑一般会在故障发生时一刀切强调止损,然后故障结束后强调事故报告,接着强调责任“划分”,最后发现责任人过少或者事故太大,那简单 加上运维团队就好;最后的最后催一催故障报告以及美化故障报告. 对的我是运维😂2017-12-0540
- bullboying故障分为自产软件类,第三方软硬件类,操作类,外部原因类共四类。 每起故障都会有技术复盘,由研发总监牵头处理。另外会有月度管理复盘,探讨有哪些管理改进措施。所有改进措施都要创建任务单跟踪,确保必须有个结果,是落实了或者是投入产出比不合适而取消了。 持续优化故障处理流程几年了,故障发生率和平均业务恢复时间都在持续下降中。2017-12-05128
- 马若飞我司的处理方式和亚马逊的COE类似,要写这种东西,基本内容也一样。然后严重的故障P1 P2级别的要在公司级别的每个release review大会上复盘。。。另外我司是2B公司,客户很重要,基本上出了大问题都是会给客户造成million级别的损失,所以我司没有惩罚机制,直接fire。。。2018-06-06125
- helloworld阿里做基础架构的是不是经常背锅2017-12-0522
- UioSun支持“不从物质上惩罚工程师”。 如果觉得无法掌控员工的生产力盈余,可以要求团队写周记甚至日报;如果觉得员工工作不合适,要么谈话,要么开除。惩罚工程师看起来很解气,但对这个人能否反省和进步,意义不大。不再犯错不等于反省,或许就如同文中说的,只是等于“不再触碰”。 那惩罚的意义何在呢?这个员工成长不起来,早晚要被开除。 延缓公司为该员工递增支付的成本吗?企业如果真的有这个资源,何不再培养一位新员工,毕竟价值观都不一致,将人留下来只是“徒添鸡肋”罢了。 将员工吓得因噎废食,实在没有必要,与其如此,何不直接开除员工,这样你好我好大家好,别耽误对方。2019-03-04117
- Geek_fb3db2为什么网页版本 复制不了,想记录下笔记 都没法复制,这样不好吧。2018-11-13113
- Geek_7b1383第一,优化故障获知和故障定位的时间----监控全面并且自动化 第二,优化故障的处理方式-----监控发给恰当的人 第三,优化开发过程中的问题。-----技术债定期排期优化,三级codeview 第四,优化团队能力。-----结对编程等,团队的技术输出,学习群等 我们公司的复盘方式同耗子哥所描述的亚马逊的复盘方式,都是责任到人,CTO参与检视并汇报的,结果是近2年来故障逐年降低,系统方面的基础工具支持越来越完善,监控故障处理方面也越来越自动化智能化2020-04-258
收起评论