16|故障(二):变更管理,解决主动故障的高效思维方式
陈现麟
该思维导图由 AI 生成,仅供参考
你好,我是陈现麟。
通过上一节课的学习,你已经理解了系统故障的评估标准,并且明白了在 SLA 一定的情况下,平均故障恢复的时间越短,对用户体验的影响就越小,所以快速恢复故障是一个非常关键的目标。接着,我们采用分治法,将故障分为被动故障和主动故障,讨论了如何通过预案调度快速恢复被动故障的策略。
相信你已经对被动故障如何处理心中有数了,但是,我们对于故障恢复的处理还远远没有结束。根据极客时间以往的故障报告进行分析,我们会发现很多故障都是在系统迭代过程中,人为引入的主动故障,比如发布新版本服务引入的 Bug 和崩溃等。所以,在这节课中,我们就继续来学习,如何处理由于主动原因导致的系统故障。
主动故障的分析与思考
首先,我们一起来思考一下,主动故障是否也可以通过预案调度的形式来快速恢复呢?答案一定是不可以的。我们来回忆一下被动故障的特点,虽然出现被动故障的地方,不受我们的控制,但是它有相对标准的服务和方案,不会随着业务的迭代而快速变化,所以处理被动故障时,我们准备多预案的成本是可控的。
而主动故障是工程师们在业务迭代过程中,人为引入的故障,如配置错误、代码 Bug 等,它来自于我们的业务系统,我们不可能为了做预案,同时组织两个不同的研发团队,分别开发同一个业务系统,这个多预案的成本实在是太高了。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了在系统迭代过程中,人为引入的主动故障是一个常见问题,并提出了从变更管理的角度出发,快速处理主动故障的方法。通过分析主动故障的来源,引入自动化的变更管理系统以及稳定版本的概念,可以高效地处理故障。文章还讨论了故障恢复流程和如何设计一个变更管理系统,以及如何定义一个变更的版本为稳定版本。总的来说,本文深入浅出地为读者提供了解决主动故障的高效思维方式,对于系统运维和故障处理具有一定的指导意义。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出分布式技术原理》,新⼈⾸单¥59
《深入浅出分布式技术原理》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 李二木如果用k8s,服务回滚很方便,但是如果牵扯到数据库表结构变更,这个有什么好的方式回滚吗?
作者回复: 数据库 schema 的变更,会涉及到数据的变动,一般来说在变更 schema 的时候,要设计成可以回滾的,没有其他好的办法。
2022-04-2322 - peter请教老师两个问题啊: Q1:SpringCloud微服务系统需要变更管理系统吗? 基于SpringCloud的微服务系统的文章和书籍,很少提到过变更管理系统啊。看了本文,觉得变更管理系统挺重要的,但为什么相关书籍、文章都不讲呢? Q2:变更管理系统有框架吗?
作者回复: Q1:变更管理属于 devops 或 sre 工作的一部分,一般讲服务治理不会涉及到它。 Q2:我目前没有发现开源的框架,不过实现比较简单,还好。
2022-03-041 - 花花大脸猫很low b的一个场景,oracle数据库表空间超标。。。导致线上业务直接崩溃,当时的运维对于Db这块监测没有兼顾到,恢复也比较简单,将一个交易记录大表重命名,新建一个一模一样的,优先保证业务正常,后续进行数据迁移与老数据的归档。2022-06-25
收起评论