深入浅出分布式技术原理
陈现麟
伴鱼技术中台负责人,前小米工程师
21241 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 39 讲
深入浅出分布式技术原理
15
15
1.0x
00:00/00:00
登录|注册

16|故障(二):变更管理,解决主动故障的高效思维方式

支持时间和服务/系统维度查询
记录变更的四个“什么”
人为引入的故障,如配置错误、代码Bug
通过预案调度快速恢复
复习建议
预告期中测试
分布式计算篇学习结束
预防措施
故障修复方法
分析日常工作中遇到的严重故障
故障恢复流程的高效性
稳定版本的定义和应用
变更管理系统的设计和作用
主动故障的快速恢复策略
对于高成本可回滚变更,需严格评估和测试
向前兼容性
服务和系统变更要求可回滚
4. 重新定位故障服务或考虑其他影响因素
3. 回滚到稳定版本
2. 回滚到上一个版本
1. 确定故障服务
自动化标记稳定版本
标记经历完整高峰时段的变更为稳定版本
定义业务高峰时段
架构设计要点
提供变更信息展示和查询
收集所有变更信息
运营策略变更
配置发布变更
实例数目变更
程序发布变更
主动故障的根源在于业务迭代
预案调度不适用于主动故障
主动故障
被动故障
平均故障恢复时间(MTTR)的重要性
快速恢复故障以减少用户体验影响
课程结束
思考题
总结
可回滚性
故障恢复流程
稳定版本的概念
变更管理系统
主动故障的来源
主动故障的分析与思考
故障分类
故障恢复的关键目标
故障恢复:变更管理

该思维导图由 AI 生成,仅供参考

你好,我是陈现麟。
通过上一节课的学习,你已经理解了系统故障的评估标准,并且明白了在 SLA 一定的情况下,平均故障恢复的时间越短,对用户体验的影响就越小,所以快速恢复故障是一个非常关键的目标。接着,我们采用分治法,将故障分为被动故障和主动故障,讨论了如何通过预案调度快速恢复被动故障的策略。
相信你已经对被动故障如何处理心中有数了,但是,我们对于故障恢复的处理还远远没有结束。根据极客时间以往的故障报告进行分析,我们会发现很多故障都是在系统迭代过程中,人为引入的主动故障,比如发布新版本服务引入的 Bug 和崩溃等。所以,在这节课中,我们就继续来学习,如何处理由于主动原因导致的系统故障。

主动故障的分析与思考

首先,我们一起来思考一下,主动故障是否也可以通过预案调度的形式来快速恢复呢?答案一定是不可以的。我们来回忆一下被动故障的特点,虽然出现被动故障的地方,不受我们的控制,但是它有相对标准的服务和方案,不会随着业务的迭代而快速变化,所以处理被动故障时,我们准备多预案的成本是可控的。
而主动故障是工程师们在业务迭代过程中,人为引入的故障,如配置错误、代码 Bug 等,它来自于我们的业务系统,我们不可能为了做预案,同时组织两个不同的研发团队,分别开发同一个业务系统,这个多预案的成本实在是太高了。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了在系统迭代过程中,人为引入的主动故障是一个常见问题,并提出了从变更管理的角度出发,快速处理主动故障的方法。通过分析主动故障的来源,引入自动化的变更管理系统以及稳定版本的概念,可以高效地处理故障。文章还讨论了故障恢复流程和如何设计一个变更管理系统,以及如何定义一个变更的版本为稳定版本。总的来说,本文深入浅出地为读者提供了解决主动故障的高效思维方式,对于系统运维和故障处理具有一定的指导意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出分布式技术原理》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • 李二木
    如果用k8s,服务回滚很方便,但是如果牵扯到数据库表结构变更,这个有什么好的方式回滚吗?

    作者回复: 数据库 schema 的变更,会涉及到数据的变动,一般来说在变更 schema 的时候,要设计成可以回滾的,没有其他好的办法。

    2022-04-23
    2
    2
  • peter
    请教老师两个问题啊: Q1:SpringCloud微服务系统需要变更管理系统吗? 基于SpringCloud的微服务系统的文章和书籍,很少提到过变更管理系统啊。看了本文,觉得变更管理系统挺重要的,但为什么相关书籍、文章都不讲呢? Q2:变更管理系统有框架吗?

    作者回复: Q1:变更管理属于 devops 或 sre 工作的一部分,一般讲服务治理不会涉及到它。 Q2:我目前没有发现开源的框架,不过实现比较简单,还好。

    2022-03-04
    1
  • 花花大脸猫
    很low b的一个场景,oracle数据库表空间超标。。。导致线上业务直接崩溃,当时的运维对于Db这块监测没有兼顾到,恢复也比较简单,将一个交易记录大表重命名,新建一个一模一样的,优先保证业务正常,后续进行数据迁移与老数据的归档。
    2022-06-25
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部