SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
30 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

导学|如何构建坚不可摧的服务可靠性体系?

你好,我是白园。这节课我来带你俯瞰整个服务可靠性保障体系,让你在脑海里先有一个课程的全貌。
我们都知道,在这个数字化的时代,服务的每一次中断都可能成为企业声誉的致命伤。想象一下,当用户点击刷新,却只看到一片空白,那种失望和信任的流失是任何营销策略都难以挽回的。服务可靠性,这个看似技术性的问题,实则关乎企业的生存与发展。但如何确保服务的稳定运行,避免那些令人头疼的故障和中断呢?
这就需要我们从各个层次去建设我们的服务可靠性体系了,这里我梳理了一张服务可靠性的全景图,在后面的课程中我会分层次给你介绍每个部分的作用和建设意见。
通过这张全景图可以知道想要做好服务可靠性保障建设,我们需要重点关注三个问题。
如何衡量服务的可靠性,指标体系是什么?
应该重点考虑并建设哪些环节?
支撑可靠性保障体系持续完善的几个要素是什么?

如何去衡量一个服务是否稳定?

首先我们可以思考一个问题,如何去衡量一个人是否健康。最直接的衡量标准就是看一个人是否生病,生病的严重程度,以及生病的频率。但是仅仅看生病是远远不够的,我们还需要衡量身体内的各项指标,比如血糖、血脂、血压等等。
其实这就和衡量一个系统是否有问题是一个道理;我们不仅要看结果指标,是否有故障,有异常;更要细化到每个层级去看系统指标。结果指标就是最终的影响和损失;系统指标就是内在的各个子领域的衡量维度。具体的指标我用一张图表示出来了,你可以看一下。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 服务可靠性对企业的生存与发展至关重要,需要建设服务可靠性体系。 2. 衡量服务可靠性需要关注结果指标和系统指标,包括实时性SLA和结果导向SLA。 3. 服务可靠性建设需要重点关注各个层级的客户端、接入层、业务服务、基础服务、基础平台/服务、基础设施,以及监控、容量、变更、预案、备份、机制等方面。 4. 可靠性体系持续完善需要重视经验的积累与传承、工具和系统的重要性,以及数据和模型在服务可靠性中的核心作用。 5. 可靠性保障是工程师职业生涯中的一项核心技能,对各个领域的工程师都至关重要。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部