左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家
180928 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 119 讲
左耳听风
15
15
1.0x
00:00/00:00
登录|注册

18 | 故障处理最佳实践:故障改进

故障责任人
故障等级
故障后续整改计划
Ask 5 Whys
故障原因分析
故障处理过程记录
创始人问题
公司文化问题
管理问题
工程能力问题
9个为什么的例子
惩罚故障责任人的方式
故障处理内容
召集相关人员进行复盘
提交给管理层审查
COE文档
全面改善和优化整个系统,包括组织
简化复杂、不合理的技术架构、流程和组织
举一反三解决当下的故障
技术问题隐藏的问题
整改方案与为什么的关系
亚马逊的Ask 5 Whys玩法
阿里的复盘方式
亚马逊的复盘流程
三条原则
找到问题的本质
故障整改方法
故障复盘过程
故障处理最佳实践:故障改进

该思维导图由 AI 生成,仅供参考

你好,我是陈皓,网名左耳朵耗子。
在上节课中,我跟你分享了在故障发生时,我们该怎样做,以及在故障前该做些什么准备。只要做到我提到的那几点,你基本上就能游刃有余地处理好故障了。然而,在故障排除后,如何做故障复盘及整改优化则更为重要。在这篇文章中,我就跟你聊聊这几个方面的内容。

故障复盘过程

对于故障,复盘是一件非常重要的事情,因为我们的成长基本上就是从故障中总结各种经验教训,从而可以获得最大的提升。在亚马逊和阿里,面对故障的复盘有不一样的流程,虽然在内容上差不多,但细节上有很多不同。
亚马逊内部面对 S1 和 S2 的故障复盘,需要那个团队的经理写一个叫 COE(Correction of Errors)的文档。这个 COE 文档,基本上包括以下几方面的内容。
故障处理的整个过程。就像一个 log 一样,需要详细地记录几点几分干了什么事,把故障从发生到解决的所有细节过程都记录下来。
故障原因分析。需要说明故障的原因和分析报告。
Ask 5 Whys。需要反思并反问至少 5 个为什么,并为这些“为什么”找到答案。
故障后续整改计划。需要针对上述的“Ask 5 Whys”说明后续如何举一反三地从根本上解决所有的问题。
然后,这个文档要提交到管理层,向公司的 VP 级的负责人进行汇报,并由他们来审查。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

故障处理最佳实践:故障改进 文章介绍了在故障排除后的故障复盘及整改优化的重要性。作者分享了亚马逊和阿里在故障复盘过程中的不同流程,以及针对故障的整改方法和原则。在故障复盘过程中,亚马逊要求团队经理编写COE文档,详细记录故障处理过程、故障原因分析和提出故障后续整改计划,而阿里则采用召集相关人员进行复盘的方式。此外,文章还介绍了故障整改方法,作者倾向于采用亚马逊的Ask 5 Whys方法,通过连续追问为什么来找到问题的本质。最后,作者总结了三条工作原则,包括举一反三解决故障、简化复杂的技术架构和全面改善整个系统。文章强调了简化复杂系统的重要性,以及在处理故障时需要从根本上改善整体结构。 这篇文章深入探讨了故障处理的复盘和整改优化,突出了技术和管理两方面的方法。通过分享亚马逊和阿里的不同做法,以及作者的个人经验和观点,为读者提供了宝贵的故障处理经验和启示。文章内容丰富,观点鲜明,对于需要了解故障处理最佳实践的读者具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《左耳听风》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(65)

  • 最新
  • 精选
  • 杜小琨
    耳朵大叔,介绍下你对故障判责边界的划分有什么经验和原则。 另外我不认同你对阿里故障惩罚机制不认同的观点,我比较认同人是利益驱动的生物。

    作者回复: 发生故障的最佳实践是反思、总结和改善,判责对故障的解决没有因果关系。“人是利益驱动的”没错,但是“利益”和“能力”没有任何关系,处理故障是靠“能力”不靠“利益”,希望你能get到这其中的“因果关系”。

    2017-12-15
    10
    43
  • 茎待佳阴
    我们公司比较奇葩,记得是今年7月的一个晚上,因为那段时间用户量涨得快,所以对服务扩分片,然后,由于需要GO那边的一哥们重启代理,没沟通好,导致,他把代理重启了,我服务还没启动,导致一半的用户无法登陆。CTO当时也在那坐着,起来就把键盘摔了,在那骂半天。之后线上故障了基本也都是这样,只要出问题,就用骂来解决问题,表示问题跟领导没关系。
    2018-01-06
    19
    111
  • z_sz
    做得越多,错得越多,隔壁组一个男生就是因为这个考核很差愤而离职了……
    2018-03-03
    3
    60
  • 不会跑
    一般会在故障发生时一刀切强调止损,然后故障结束后强调事故报告,接着强调责任“划分”,最后发现责任人过少或者事故太大,那简单 加上运维团队就好;最后的最后催一催故障报告以及美化故障报告. 对的我是运维😂
    2017-12-05
    40
  • bullboying
    故障分为自产软件类,第三方软硬件类,操作类,外部原因类共四类。 每起故障都会有技术复盘,由研发总监牵头处理。另外会有月度管理复盘,探讨有哪些管理改进措施。所有改进措施都要创建任务单跟踪,确保必须有个结果,是落实了或者是投入产出比不合适而取消了。 持续优化故障处理流程几年了,故障发生率和平均业务恢复时间都在持续下降中。
    2017-12-05
    1
    28
  • 马若飞
    我司的处理方式和亚马逊的COE类似,要写这种东西,基本内容也一样。然后严重的故障P1 P2级别的要在公司级别的每个release review大会上复盘。。。另外我司是2B公司,客户很重要,基本上出了大问题都是会给客户造成million级别的损失,所以我司没有惩罚机制,直接fire。。。
    2018-06-06
    1
    25
  • helloworld
    阿里做基础架构的是不是经常背锅
    2017-12-05
    22
  • UioSun
    支持“不从物质上惩罚工程师”。 如果觉得无法掌控员工的生产力盈余,可以要求团队写周记甚至日报;如果觉得员工工作不合适,要么谈话,要么开除。惩罚工程师看起来很解气,但对这个人能否反省和进步,意义不大。不再犯错不等于反省,或许就如同文中说的,只是等于“不再触碰”。 那惩罚的意义何在呢?这个员工成长不起来,早晚要被开除。 延缓公司为该员工递增支付的成本吗?企业如果真的有这个资源,何不再培养一位新员工,毕竟价值观都不一致,将人留下来只是“徒添鸡肋”罢了。 将员工吓得因噎废食,实在没有必要,与其如此,何不直接开除员工,这样你好我好大家好,别耽误对方。
    2019-03-04
    1
    17
  • Geek_fb3db2
    为什么网页版本 复制不了,想记录下笔记 都没法复制,这样不好吧。
    2018-11-13
    1
    13
  • Geek_7b1383
    第一,优化故障获知和故障定位的时间----监控全面并且自动化 第二,优化故障的处理方式-----监控发给恰当的人 第三,优化开发过程中的问题。-----技术债定期排期优化,三级codeview 第四,优化团队能力。-----结对编程等,团队的技术输出,学习群等 我们公司的复盘方式同耗子哥所描述的亚马逊的复盘方式,都是责任到人,CTO参与检视并汇报的,结果是近2年来故障逐年降低,系统方面的基础工具支持越来越完善,监控故障处理方面也越来越自动化智能化
    2020-04-25
    8
收起评论
显示
设置
留言
65
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部