分布式技术原理与算法解析
聂鹏程
智载云帆 CTO,前华为分布式 Lab 资深技术专家
39663 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 43 讲
分布式技术原理与算法解析
15
15
1.0x
00:00/00:00
登录|注册

30 | 分布式高可用之故障隔离:当断不断,反受其乱

思考题
知识扩展:用户级别的故障隔离
故隔离策略综合对比
分布式故障隔离策略
什么是故障隔离?
分布式系统的故障隔离

该思维导图由 AI 生成,仅供参考

你好,我是聂鹏程。今天,我来继续带你打卡分布式核心技术。
在前面两篇文章中,我带你一起学习了分布式系统高可靠的关键技术,包括分布式负载均衡和流量控制。除了高可靠,在实际生产中,分布式系统的高可用问题也极其重要。
比如,在双十一的抢购高峰期,如果分布式系统不能满足高可用的特性,那么当大量用户同时抢购时就可能导致系统崩溃,无法提供服务,导致大量用户流失。
因此,在接下来的两篇文章,我将从故障隔离和恢复机制这两项关键技术入手,和你一起学习如何保证分布式系统的高可用。
今天,我们就先一起打卡分布式高可用中的故障隔离吧。

什么是故障隔离?

从字面意思来看,故障隔离就是,把故障通过某种方式与其他正常模块进行隔离,以保证某一模块出现故障后,不会影响其他模块。
其实,我们生活有很多故障隔离的例子,比如交通。一辆车就类似于分布式系统中的一个模块,当一辆车在高速公路上出现故障后,我们通常会将其停靠在紧急车道,或者在其前后设置故障指示牌,以防止其他车辆与其相撞,引起更大的交通事故。这种将故障车辆停靠在路边紧急车道或设置故障指标牌的方法,就是一种故障隔离。
现在我们回到分布式系统,故障隔离,就是采用一定的策略,以实现当某个模块故障时,不会影响其他模块继续提供服务,以保证整个系统的可用性。所以说,故障隔离,可以避免分布式系统出现大规模的故障,甚至是瘫痪,降低损失。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

分布式系统的故障隔离是确保系统高可用性的关键技术之一。故障隔离通过将故障与其他正常模块隔离,以保证某一模块出现故障后不会影响其他模块,从而降低系统瘫痪的风险。文章介绍了故障隔离的概念和常见策略,包括线程级隔离和进程级隔离,以及资源隔离。线程级隔离通过使用不同的线程池处理不同的请求任务,实现故障的隔离;而进程级隔离则将系统按功能分为不同的进程,分布到相同或不同的机器中,以实现故障隔离。资源隔离则将分布式系统的所有资源分成几个部分,每部分资源负责一个模块,从而避免资源争夺,提高系统性能。微服务框架中的容器化技术也是一种资源隔离策略,通过限制容器使用的资源来实现资源隔离,提升系统性能。除了资源隔离,还介绍了用户级别的故障隔离策略,如数据分片和负载均衡。这些策略对于分布式系统的高可用性保障具有重要意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《分布式技术原理与算法解析》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(15)

  • 最新
  • 精选
  • 阿卡牛
    划重点:故障隔离更多的是从事前预防的角度下手
    2019-12-10
    8
  • Harvey
    这节课不应该叫故障隔离,应该叫避免单点故障
    2020-02-09
    3
  • Jackey
    判断一个系统是否健康就是我们平时监控的一些指标吧,cpu、内存利用率、磁盘空间、io吞吐量,Java服务的话还要加上gc的相关信息,最后还有对网络的检查。
    2019-12-06
    1
    3
  • 张俊东
    其实可以再介绍下熔断机制
    2020-10-05
    1
  • leslie
    不同层次使用的隔离不同:中间件存储通常都是有MQ+DB组成,MQ用的是进程隔离,DB用的则是资源隔离,整套系统针对不同应用使用的隔离级是不同的。 通过今天的学习发现原来隔离梳理清楚是如此的复杂,一套性能和稳定性都不错的分布式系统其实一点都不容易。谢谢老师的教诲。
    2019-12-06
    1
  • 阿卡牛
    服务调用时长分布 服务的 TOP N 视图 数据库操作关联 服务资源跟踪
    2019-12-06
    1
  • 黄骏
    那磁盘亚健康和网络亚健康的隔离策略至少是进程级别的隔离了,可能是机房或者数据中心级别。
    2022-05-09
  • cpzhao
    衡量一个服务的故障指标,一般是服务的可用性来衡量,例如服务的正常请求数/总请求数。当然这个指标也要考虑分配给这个服务的资源(cpu、内存等)。 所以我觉得系统故障的指标监控,需要坚持占用的cpu、内存、系统的业务响应成功率。
    2020-03-01
    1
  • 可用率
    2020-02-20
  • Dale
    1、基础监控查看,例如cpu、内存、网络占用率 2、业务监控,通过定期检查服务状态,
    2020-01-20
收起评论
显示
设置
留言
15
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部