08 | 建立 SLO：如何为系统可靠性的量化提供依据？

翁一磊

你好，我是翁一磊。
在前面两节课，相信你已经意识到，建立可观测性需要开发、测试、运维等团队共同的努力，而大家一起努力的目标就是维护好系统可靠性。
这时候你可能会有一个疑问，系统的可靠性究竟应该如何衡量呢？在这一讲，我就来为你详细介绍一下服务水平目标，也就是 Service Level Objective（SLO）。通过设定具体且可衡量的可靠性目标，能够帮助企业在产品开发迭代和稳定性保障工作之间取得适当的平衡，带来积极的最终用户体验。
什么是 SLO？说到 SLO，相信你一定会联想到另一个英文缩写 SLA。SLA 即 Service Level Agreement，也就是服务等级协议，它指的是系统服务提供者（Provider）对客户（Customer）的一个服务承诺。
在移动互联网时代，我们对基于互联网应用的需求日益旺盛（电商、社交网络、游戏、云服务商、SaaS…），任何一个互联网业务应用（也就是这个时代的系统服务提供者）出现故障，都会对用户乃至于整个社会产生巨大的影响，因此服务提供者需要明确能够提供的服务保障。
而 SLO 就是 SLA 的具体目标管理办法，它由一系列相关的指标 SLI （Service Level Indicator）来进行衡量。虽然我们中文里也常提到指标，但 SLI 和我们之前讨论的 Metric（指标）有所不同：不是所有的 Metric 都是 SLI，SLI 应该更靠近使用产品和服务的最终用户，用于衡量提供给最终用户的服务水平，具体包括可用性、响应时间等等。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

建立 SLO：如何为系统可靠性的量化提供依据？ SLO（Service Level Objective）是衡量系统可靠性的关键指标，通过设定具体且可衡量的可靠性目标，能够帮助企业在产品开发迭代和稳定性保障工作之间取得适当的平衡，带来积极的最终用户体验。SLO由一系列相关的指标SLI（Service Level Indicator）来进行衡量，如可用性、响应时间等。通过SLO，可以检测在每个检测周期内各个SLI是否满足要求，从而计算整体的SLO情况。SLO对最终用户、开发和运维都很重要，帮助找到产品创新和可靠性之间的平衡点，以及推进业务成果和促进文化转变。通过错误预算，团队能够客观地决定优先考虑哪些项目或计划，调整工作和目标。文章还介绍了如何选取合适的SLI，以及SLO对企业内部人员的重要性。 SLO的建立为系统可靠性提供了量化依据，对于企业的稳定性和用户体验至关重要。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《深入浅出可观测性》，新⼈⾸单¥29

立即购买

登录后留言

全部留言(6)

最新
精选

hshopeful
如果选取多个 SLI 指标当作 SLO 的话，是不是只要有一个 SLI break 了目标，整个 SLO 目标就 break 掉了呢？
作者回复: 是的，所以有些系统会有权重的设计，根据不同 SLI 来进行定义
2023-01-20归属地：湖北


LYy
“设定多个 SLI 与相应的影响 SLO 的规则，相当于为这个系统可靠性工程定义了 OKR”这句话怎么理解？SLO是一个服务整体的可靠性目标，每个SLI都会消耗其错误预算？另外SLA和SLO如何具体的关联起来？能否展开讲讲？
作者回复: 你好，你前半部分的理解没错，SLI报错或者未达标会消耗错误预算。类似OKR就是好比SLO就是Objective，SLI就是每个O的key result。SLO的最终目标是为了达到SLA，SLO是内部目标，SLA是承诺给客户的
2022-10-16归属地：上海


Eason Lau
举个例子，过去 30 天（总计 43200 分钟），如果发生异常的时间为 2 分钟，则 SLO 的状态为（43200 - 2）/ 43200 * 100% = 99.995% 请问，这个异常时间如何得来呢？是按宕机算还是按什么得来的？
作者回复: 是按照 SLI 的异常时间来扣除的
2022-10-09归属地：上海
3

三毛
我们是金融行业，重点关注的还是交易的成功率、响应时间和交易量这3个黄金指标
作者回复: 感谢分享！不同的行业和业务，关注点确实会不一样
2022-10-09归属地：上海


AKA三皮
错误预算堆栈：通过数据做决策，平衡开发和运营，实施起来比较困难。这个方法论如果做为监控体系的切入点是不是比较好，错误预算消耗过快===>告警===>发现问题===>解决问题。但是往往在内部，前端的同事（顾问），通常遇到一个问题（100%可靠性）就要求解决，这实际上与错误预算的文化是背道而驰的。你去跟他讲大道理，他会跟你说，客户要求～～～
作者回复: 感谢分享！不过如果确实影响到客户使用和体验，那也是影响错误预算了
2022-09-30归属地：上海


765
文中给出的SLI示例，如果这个SLI不达标，怎么计算出这个SLI的异常时间呢？例如，跟踪请求延迟可能是“在 30 天内，95% 的身份验证服务请求的延迟将小于 250 毫秒”。需要指出的是，这里的 95% 是 P95 的含义，即将响应耗时从小到大排列，顺序处于 95% 位置的值即为 P95 值。这里不选择平均数，是因为偶尔发生的极端值可能会极大地影响平均数，让平均数的统计失去了意义。
2024-01-30归属地：上海



收起评论