SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
757 人已学习
新⼈⾸单¥59
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

04|预案:预案的三板斧指的是什么?

你好,我是白园,今天我们来聊聊可靠性的第四个部分—预案。
在《隋唐演义》中,程咬金以其独特的三招绝技——三板斧,战胜了众多强敌。尽管他掌握的招数不多,但每一招都运用得炉火纯青。预案也是这样,它的价值不在于数量的多寡,而在于其精准性和熟练度。
历史上,超过 90% 的系统故障都通过一些基础而通用的应急预案得到了有效解决。这些预案的高效和熟练运用是提高故障恢复速度的关键因素。例如,2021 年 B 站遭遇的重大故障,就是通过执行服务回滚和系统重启的策略成功恢复的。
这节课我会给你介绍六个最常用的应急预案,并详细解释它们的执行顺序。我们将探讨如何确保这些预案能够被有效且迅速地执行,以便在面临系统故障时,能够最大限度地减少业务损失。

六大通用预案

六大预案就是回滚、扩容、重启、切流、限流、降级。这六种预案可以分为三类,第一类是几乎无损的预案,包括切流、扩容;第二类是短时间内有损的预案,包括重启和回滚;第三类是持续有损的预案,包括限流和降级。我们在选择的时候,需要看一下选择哪种或者哪几种,还有操作顺序是怎样的。

切流

切流是一种常见的技术手段,用于在发生单机房故障时保持服务的连续性和可用性。由于流量切换是一种无损操作,它成为处理此类问题的首要选择。在服务部署时,应实施多机房冗余部署策略,至少确保两个机房的冗余,以便在一个机房发生故障时,能够迅速将流量切换到其他正常运行的机房。这里我来介绍几种常见的切流场景。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 预案的重要性和价值在于其精准性和熟练度,历史上超过90%的系统故障都通过基础而通用的应急预案得到了有效解决。 2. 六大通用预案包括回滚、扩容、重启、切流、限流、降级,分为几乎无损的预案、短时间内有损的预案和持续有损的预案。 3. 切流是一种常见的技术手段,用于在发生单机房故障时保持服务的连续性和可用性,包括客户端自动故障转移、DNS层面的流量切换、4层和7层流量切换等。 4. 重启服务是一种常见的预案手段,但在执行时必须谨慎分级进行,以最大限度地减少因重启导致的服务中断风险。 5. 降级旨在确保服务在面临资源限制或故障时仍能保持关键功能的运行,包括资源重新分配和故障屏蔽隔离。 6. 限流是确保系统稳定性和性能的关键策略,主要通过控制并发数和请求量来实现,最常见的两种限流算法为令牌桶和漏桶算法。 7. 定期演练通过对关键服务进行定期的故障演练,可以在真正的业务故障发生之前识别潜在的弱点和风险点,并制定相应的应对措施。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部