事故分析的趋势和行为
极客时间编辑部
讲述:杜力大小:1.06M时长:02:19
近日,在伦敦举办的 Velocity 大会上,PagerDuty 公司的 DevOps 负责人埃里克·西格勒(Eric Siegler)发表了一份报告,该报告涵盖了六个月内,来自 125 个不同组织的 1000 份事故分析(post-mortems)。
西格勒分析出的主要趋势包括:
无可非议的事故分析的普遍性;
仅有百分之一的事故分析源于“人为错误”;
对事件生命周期的分析可以提供对事件响应过程中相关弱点的深入见解。
经由西格勒调查,他发现几乎没有证据可以证明事故分析的原因源于“人为错误”,只有 1% 的事故分析与“人为错误”有关。以去年 3 月 AWS S3 的故障为例,该事件的事故分析并没有声明人为错误是导致故障的原因,但媒体报道却大都归咎于个人。
收集到的数据还表明,许多组织花费了大量的精力来详细说明事件的时间线,并且很多事故分析都不包含任何其他方面的文本信息。对此,西格勒认为,尽管了解被审查的事故是一项有用的练习,但跟踪常见事件的状态转换,比如启动、自检、改进、解决等等可以得到更好的见解,以改善整个响应过程。
例如,在启动状态和自检状态之间的不断重复就对监测和仪器的正确性提出了疑问。这种情况可能表明在组织中的知识共享和职责分配方面存在瓶颈,或者仅仅是因为积累了太多的技术债务导致了系统的失败。
西格勒还发现,大多数组织平均每月进行事故分析的次数不足一次。有三分之一的组织会在事故后 24 小时内进行分析,还有三分之一的组织会在事故后一星期内进行分析,剩下的那部分则会在一周后才进行分析,但这样通常很难克服选择性遗忘。
不过,西格勒也特意强调,这只是一个小型的数据集,所以分析出结果可能会偏向于一些已经具有完备事故分析过程的组织,它们的运营看起来会更为成熟。
最后,西格勒提供了几点建议。首先,事故分析对于检查流程改进是否有助于消除系统中的错误很有帮助;其次,如果反复遇到相同的问题,事故分析也能起到很好的作用;最后,事故分析可以发现组织问题,因此,对事故分析结果的应用不能仅局限在技术上的改进。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论