03 | SRE切入点:选择SLI,设定SLO
- 深入了解
- 翻译
- 解释
- 总结
SRE实践中的SLI和SLO选择是落地SRE的关键一步。选择合适的SLI指标需要考虑主体稳定性和用户体验,如电商系统可选择请求返回状态码和时延作为SLI指标。VALET方法提供了快速选择SLI指标的途径。SLO的设定需要根据SLI指标制定稳定性目标,同时通过SLO计算系统可用性。文章还介绍了两种系统可用性计算方式,以及SLA和SLO的区别。读者需要掌握对系统指标的分层识别、选择合适的SLI指标和掌握VALET方法。最后,读者被留下一个思考题,需要根据Google提供的规范格式制定自己系统的SLO。
《SRE 实战手册》,新⼈⾸单¥29
全部留言(25)
- 最新
- 精选
- soong置顶关于SLI和SLO,分析得很清楚!理念上帮助理解,同时还有实践的指引,极具深度!
作者回复: 非常感谢!也希望与你一起有更深度地交流和探讨。
2020-03-286 - 飞鸿无痕关于SLI和SLO的选择和制定写得很好,人工点赞。请教一个践行SRE过程中关于SLI选择的疑惑。对于现在的微服务架构,会有非常多的服务,而且其中包含有很多关键服务模块,比如订单、购物车、商品等等,我们在选择SLI的时候,各个服务都会有对应的错误率和访问延迟,但是反应系统稳定性又是一个综合的体现。请教赵成老师,在微服务架构下,应该如何合理的地选择SLI来反应系统的整体稳定性?
作者回复: 这是一个很好的问题,其实我们接下来的一篇内容就要讲到这个具体的问题,可以耐心等待一下。
2020-03-258 - Nick通过SLI和SLO, 是不是只能判断在一个时间范围内是否都达标. 但没法做到像前面的那个时间纬度那样的3条9和4条9这样的表. SaaS的服务承诺好像是用类似时间维度那样的3条9, 4条9这样的故障时间评判表.
作者回复: SLO同样可以做到的3个9或4个9这样的定义的,具体可以看04的Error Budget这部分内容。 其实,即使是针对时间维度的定义,这里还会有一个问题,就是怎么算可用时长,怎么不可算,最终归根结底还是要落到SLI上面。 这部分内容比较多,可以花点时间好好消化下。
2020-03-233 - leslie老师分享的标准要翻墙、、、我就基于课程内容谈谈吧,觉得课程中的东西结合之前运维体系课程可以理解缘由。 “SLO 是 SLI 要达成的目标。”一个是等级一个是分数;就如同“Availability = SLO1 & SLO2 & SLO3”公式一样;这就如同行业等级测评一样,到达某个等级必须多项条件都只要达到一个分数。 浅谈一下DatabaseSystem这块的吧:这块云服务中其实蛮多的,简单谈一下,这个其实是一段时间爱你观察的一个积累吧; 失败请求的次数、CPU使用率、内存使用率、IO使用率、数据的增长率,对应的标准其实各个行业有各自的特性,云服务一概而论的评级评分个人一直觉得有不少错,当然这也就是人为监控的价值。 如果没有特性,估计去年大会所谓的10%的专业运维都不用了,2-5%-特性创造价值。
作者回复: 分享的很好。系统打分是基于系统运行过程中的多个指标综合评判得出的。 云厂商定的标准我们一般称之为SLA,不一定是错误,但肯定是相对简单和通用一些,因为它是要面向更大范围的客户的,定的太过精细反而不易于执行。
2020-03-233 - Pixar关于SLO计算系统可用性有个疑问,希望老师可以帮助解答一下。 我们的可用性目标最终设定在几个9上,比如每天的可用性是99.9 %, 通过第一种计算方式(根据成功的定义)可以很方便的计算: (1天内的成功请求数)/(一天内的请求总数). 但是通过SLO1 &SLO2 & SLO3 这种计算方式如何计算出该系统在一天内的可用性呢?
作者回复: 按天算可能留给我们的budget会比较少,建议还是以4周为单位去算。 多个SLO,如果有一个不达标,其实就是稳定性不达标了。
2020-05-061 - GAC·DU老师人工介入是2票,错误率是2.4%,那么可用率99.3%是怎么算的呢
作者回复: 这个问题可以描述的详细些吗?我没有理解的很清楚。
2020-03-2731 - oci分析得清楚sli和slo
作者回复: 谢谢,能让大家更清晰的理解这两个概念,就是本篇内容的目的。
2020-03-261 - Browser量化的很好,有收获
作者回复: 不量化,就无法表达。
2020-10-19 - 飞鸿无痕在指定SLO的时候,可用性比较好评估,还有一个指标是服务的RT,一个服务一般会提供多个接口,对于其中某一个或者某几个接口RT比较长的常见(比如:一个服务80%的接口返回都在30ms,但是有几个接口返回是300ms左右,针对RT的SLO要怎么设置才比较合理?),这种应该如何来确定SLO呢?
作者回复: 建议分接口评估,而且要关注关键核心接口。
2020-10-09 - James-东方真的太棒了!内容我感觉就是SRE的BIBLE
作者回复: 哇,这评价太高了
2020-09-14