SRE实战手册
赵成
蘑菇街技术总监
立即订阅
3785 人已学习
课程目录
已完结 13 讲
0/2登录后,你可以任选2讲全文学习。
开篇词 (1讲)
开篇词|SRE是解决系统稳定性问题的灵丹妙药吗?
免费
基础篇 (5讲)
01|SRE迷思:无所不能的角色?还是运维的升级?
02 | 系统可用性:没有故障,系统就一定是稳定的吗?
03 | SRE切入点:选择SLI,设定SLO
04 | 错误预算:达成稳定性目标的共识机制
05 | 案例:落地SLO时还需要考虑哪些因素?
实践篇 (5讲)
06 | 故障发现:如何建设On-Call机制?
07|故障处理:一切以恢复业务为最高优先级
08|故障复盘:黄金三问与判定三原则
09|案例:互联网典型的SRE组织架构是怎样的?
10 | 经验:都有哪些高效的SRE组织协作机制?
结束语 (2讲)
结束语|聊聊我的SRE落地心路历程
答疑|没什么能阻挡你拓展边界的渴望
SRE实战手册
15
15
1.0x
00:00/00:00
登录|注册

05 | 案例:落地SLO时还需要考虑哪些因素?

赵成 2020-03-27
你好,我是赵成,欢迎回来。
前面几节课,我们按照层层递进的思路,从可用性讲到 SLI 和 SLO,再到 SLO 所对应的 Error Budget 策略。掌握了这些内容,也就为我们建设 SRE 体系打下了一个稳固的基础。
今天,我用一个电商系统的案例,带着你从头开始,一步一步系统性地设定 SLO,一方面巩固我们前面所学的内容,另一方面继续和你分享一些我在实践中总结的注意事项。

案例背景

我先来给你介绍下电商系统案例的基础情况,框定下我们今天要讨论的内容范围。
一般来说,电商系统一定有一个或几个核心服务,比如要给用户提供商品选择、搜索和购买的服务等。但我们知道,大部分用户并不是上来就购买,而是会有一个访问的过程,他们会先登录,再搜索,然后访问一个或多个商品详情介绍,决定是放到购物车候选,还是选择物流地址后直接下单,最后支付购买。
这条从登录到购买的链路,我们一般称之为系统的核心链路(Critical Path),系统或网站就是依靠这样一条访问链路,为用户提供了购买商品的服务能力。
至于电商系统的其它页面或能力,比如网站政策、新手指导、开店指南等等,这些对用户购买服务不会造成太大影响的,相对于核心链路来说,它的重要性就相对低一些。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《SRE实战手册》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(7)

  • leslie
    老师在课程中讲到了生产压测,其实压测同样可以放在测试环境或者非核心业务中去测试;这其实就是结合DevOps方面的知识。之前学习时有被推荐此书,不过精力有限尚未来的及去增加书库。
    DevOps/敏捷讲的是突出效果必然要用典型系统:SRE的不少操作完全可以反其道而行之;故而个人意志觉得DevOps和SRE是互补的,如何合理使二者发挥功效这其实是我们一直要努力去探索的。

    作者回复: 感谢你的分享和建议。

    测试环境也可以做压测,特别是一些大型核心系统,做线上压测时可以在测试环境上提前做几次,先看下效果。

    但是测试环境最大的问题是,数据量是没有线上那么大,模型也没有那么精准的,所以最有效的办法还是线上。

    关于DevOps和SRE的关系,后续我会在答疑篇中分享一下。

    2020-03-30
    4
  • 自行车
    很有启发,为公司部署了很多监控系统和告警策略,但是总感觉大部分的告警都是无用的,现在想想就是没有制定明确的slo,感谢老师

    作者回复: less is more,一定要选择有用的和关键的指标

    2020-04-01
    2
  • 摇滚诗人M
    游戏(吃鸡)业务:
    1.核心链路:登录,玩家组队及匹配,道具购买(非核心链路,但是对公司收益直接影响,故也应保障),进行游戏,游戏结算(经验值等)。
    2. 除了valet维度的SLO,还需招募人员,内测游戏中的各种场景下可能出现的bug。(bug budget)
    3. 压测,混沌工程同样适合。(特殊节日预演)

    作者回复: 很好的回顾了我们本节课程的内容,学以致用。

    2020-03-29
    2
  • lyonger
    期待老师分析全链路跟踪的相关实践。😬

    作者回复: 可以看我第一门课里相关的章节,也可以自己在其它专栏中找一下对应的内容。因为这部分内容讲的比较多了,我就不再这个专栏中赘述了。

    2020-03-28
    1
    2
  • 旭东(Frank)
    感觉现在的运营评判标准都是靠个人感觉,也没有SLO,连主线业务都没有确定清晰,搞什么都是东施效颦

    作者回复: 没有标准的时候,每个人都是靠感觉,这就非常不可控,所以标准很关键。

    2020-04-03
    1
  • soong
    电商类应用,比较明显的限制因素,是像大促活动一类!对于ToB的SaaS类应用,月末、月初的结转、盘点,也是一个相对集中的时间点,对于这些时间点上的保障和策略要非常清晰!

    作者回复: 没有问题,时间周期只是一个参考,本质上还是根据自己的业务特点来。

    2020-04-02
    1
  • Christopher
    给力,运维需要系统的学习
    2020-03-29
    1
收起评论
7
返回
顶部