15|故障(一):预案管理竟然能让被动故障自动恢复?
陈现麟
该思维导图由 AI 生成,仅供参考
你好,我是陈现麟。
通过学习“监控”与“告警”这两节课的内容,你已经学会如何利用 Metric、Trace 和 Log 搭建一个可观测系统,去监控极客时间这样的分布式系统。并且知道了在系统出现故障时,职责明确的告警机制,可以在第一时间通知到相关的工程师。
但是,我们现在还不能掉以轻心,因为极客时间是 7 * 24 小时无间断为用户提供服务的,能掌控和发现故障还不够,如果故障出现了,我们还必须能快速恢复故障。所以本课我们一起来讨论另外一个非常重要的问题:如果系统发生故障了,我们应该怎么来快速恢复故障?
故障恢复是一个非常复杂的问题,这里我们首先要讨论的是:怎么理解故障,以及它的评估标准是什么?只有定义好问题,并且确定好标准,我们才能明确解决问题的方向。
如何理解故障及其评估标准
对于如何理解故障和故障评估标准的问题,我认为可以从两个方面去理解和思考。
首先,评价故障的标准一定不是有或没有。虽然我们不希望有故障发生,但这却是所有的工程师必须面对的问题。同时,我们不能出现故障就处理,没有故障我们就什么也不做,我们要积极地应对故障。在系统设计的时候,应该充分考虑到故障的存在,并且做好充分的预案,才能在故障发生时,将系统的影响降到最低。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了故障预案管理的重要性以及如何通过预案调度来处理被动故障。作者强调了快速恢复被动故障的重要性,并提出了通过增加一个间接的中间层来解决计算机科学领域的问题的思维方式。文章深入浅出地解释了被动故障的来源和处理思维方式,并提供了实用的技术指导。通过一个真实故事的案例,阐述了如何通过预案调度解决第三方服务 CDN 的下载故障,为读者提供了解决类似问题的思路。此外,文章还总结了通过预案调度解决被动故障的思路,并提供了针对不同被动故障来源的预案列表。最后,文章强调了快速恢复故障的关键性,并提出了对系统提供最优质服务的优化点。整体而言,本文为读者提供了处理故障的思维方式和实用技术指导,对于需要处理系统稳定性和故障恢复的技术人员具有重要参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出分布式技术原理》,新⼈⾸单¥59
《深入浅出分布式技术原理》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- peter请教老师几个问题啊: Q1:服务端怎么确定CDN网络的优劣?定时ping吗? Q2:备用域名和正式域名是一样的吗? 比如正式域名是www.sohu.com,那么备用域名是www.sohu2.com吗? Q3:“DNS 解析预案”和“网络连通性预案”,服务端需要做什么? 文中有这样一句“对于“DNS 解析预案”和“网络连通性预案”这前两个预案来说,它们都是内置在客户端的”,既然是已经内置到APP中,那么服务端需要做什么呢? 服务端要提供可用资源列表吗?
作者回复: Q1:服务器通过分析APP访问CDN的日志来确定。 Q2:主备域名不能一样,如果一样的话,那么就不是主备,只是重试了。 Q3:是的,服务器通过分析App访问DNS和接口的网络日志,返回给客户端优先级列表。
2022-03-024
收起评论