SRE实战手册
赵成
蘑菇街技术总监
立即订阅
3487 人已学习
课程目录
已完结 13 讲
0/2登录后,你可以任选2讲全文学习。
开篇词 (1讲)
开篇词|SRE是解决系统稳定性问题的灵丹妙药吗?
免费
基础篇 (5讲)
01|SRE迷思:无所不能的角色?还是运维的升级?
02 | 系统可用性:没有故障,系统就一定是稳定的吗?
03 | SRE切入点:选择SLI,设定SLO
04 | 错误预算:达成稳定性目标的共识机制
05 | 案例:落地SLO时还需要考虑哪些因素?
实践篇 (5讲)
06 | 故障发现:如何建设On-Call机制?
07|故障处理:一切以恢复业务为最高优先级
08|故障复盘:黄金三问与判定三原则
09|案例:互联网典型的SRE组织架构是怎样的?
10 | 经验:都有哪些高效的SRE组织协作机制?
结束语 (2讲)
结束语|聊聊我的SRE落地心路历程
答疑|没什么能阻挡你拓展边界的渴望
SRE实战手册
15
15
1.0x
00:00/00:00
登录|注册

结束语|聊聊我的SRE落地心路历程

赵成 2020-04-10
你好,我是赵成,不知不觉我们已经来到了结束语,非常感谢你的一路陪伴。
学完咱们的专栏,我想对于 SRE 到底是怎么一回事儿这个问题,你应该有一个大致的了解了。就像我们在开篇词中提到的,SRE 真的没有那么神秘,你平时在做的很多事情本身就属于 SRE 的范畴,学到这里,你应该对此深有体会了。
其实这个感受我也是在不断实践的过程中总结出来的。刚接触这个概念的时候立马被它吸引,但同时也觉得这东西有点儿高大上,自己有种心有余而力不足的感觉。幸好和团队一起,就是一点一点死磕,解决一个又一个具体的问题,然后因为一直有这样一个大的框架和目标在那里,最后慢慢发现,这个框架居然已经落地得差不多了。如果总结下我自己实践 SRE 的心路历程,我觉得王阳明《传习录》里的“知者行之始,行者知之成”就特别恰当、准确。
你是不是在想,这不就是知行合一嘛,也没啥特殊啊!嗯,确实是,听起来、说起来都挺简单的,但是很多时候我们想要做到还真不容易。
其实,在学习这个课程的过程里,我们也需要知行合一,从知出发,到行完成一个闭环,然后积累新的知,把这个知行的循环一直继续下去。
这么说,有点抽象,这里我特别举咱专栏里一位同学的例子。这位同学名字叫胡凯,他一边学习课程,一边和我探讨一些 SRE 问题。每次提问,他总是可以带着具体场景和具体问题,非常有针对性,而且针对不同的场景,他又会有自己的一些见解和解决方案,然后在与我讨论的过程中,不断迭代优化他的思路和方案,特别是在 SLO 设定这一块,因为很多监控指标都是现成的,他马上就根据我们课程里给出的 VALET 方法,整理出了一个新的表格,这种从更多 SLO 维度分析稳定性的方法,一下子就解答了他之前一直以单一维度判断稳定性的很多疑惑和问题。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《SRE实战手册》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(9)

  • Mander
    感谢老师分享

    作者回复: 也感谢你的聆听和阅读,一起进步。

    2020-04-10
    2
  • wholly
    跟着老师把课程学完了,谢谢老师,老师辛苦了!就像老师说的,学习课程还只是一个理论的开始,后面更关键的是结合理论不断实践不断思考,把实际遇到的场景和问题一个个解决闭环,才能真正成为一个优秀的SRE。

    作者回复: 一起努力,也希望看到大家更多关于SRE实践方面的分享。

    2020-04-10
    2
  • 天草二十六
    大清早看到更新了,第一时间转发了这段到朋友圈:其实,在蘑菇街实践 SRE 的时候,我们也不是天天把 SRE 挂在嘴边,也不是动不动就提 DevOps、AIOps 这些名词的,相反,我们提到的更多是面对某个场景,我们的容量评估应该怎么做?细化到每个应用、每个接口上限流阈值是多少,降级和熔断的具体判断策略是怎么样的?发生故障时,我们 Step by Step 的响应过程应该是怎么样的?需要哪些人参与?大家应该怎么协作?对于监控,怎么才能更准确?需要用到什么具体算法,参数应该怎么设定?……

    我想,这才是我要去实践的,不是跟领导或同事灌输思想

    作者回复: 对,不要被Buzzword给迷惑了。

    2020-04-10
    2
  • 李杨
    谢谢赵老师分享!感觉 DevOps 和 SRE 相辅相成,没有 DevOps 的CI、CD、监控就没有SRE的SLI, SLO。返过来,没有SRE的指标,DevOps也不知道往哪个方向发展。

    作者回复: 很精辟的理解。

    2020-04-25
    1
  • 艾比利夫
    谢谢老师一个月的分析,一章不差的看完了,收获颇深。

    我和大家不太一样,我在一个小公司就职。所以在学习各种大厂体系的过程中,总有一个困惑,就是体系很牛,但我没法用,因为小公司无论人力资源、技术能力、硬件能力等都太小了,即使理论上学了,但根本无法耗时耗力搭建这么一套东西。

    但这次我学习咱们的SRE体会就不太一样,我先了解了MTBF、MTTR(更细的说是MTTR里的四个阶段),然后对照我们公司的自身的情况对照着表格看,看看是哪个环节是目前的薄弱环节。这样即使我无法向您一样搭建整个体系,我也能针对性的解决最薄弱的环节。

    但老师您在课程中也有说:SRE是一套体系,多部门合作出来的,并不是某一个点或某一个技术,那请问老师,对于我们这些中小型公司,资源有限,那怎么做才能让系统全方位的稳定起来呢?

    作者回复: 可以针对现在的问题做个排序,从最消耗你精力,最让你难受的的问题入手。

    大处着眼,小处入手。

    2020-04-10
    1
  • 大尾巴老猫
    这么快就结束语了?还意犹未尽...

    作者回复: 还想听什么可以留言给我哈

    2020-04-10
    1
  • 台风骆骆
    知行合一,从具体场景,业务出发。把学到的知识真正融入到业务中,然后反哺知识,形成闭环

    作者回复: 一起努力。

    2020-04-10
    1
  • leslie
    SER/DevOps与另外一个现在提出很多的概念“中台”类似,落地的过程其实就是循序渐进中梳理出自己的东西;然后不断反复。
    概念是浮在面上的东西:如何合理去体现在实践中去摸索相关实践修正这其实是大家需要探索的一条路。概念无处不在如何合理组合然后落地这个是一条漫长的路。
    谢谢老师一路的分享,希望将来还有机会交流学习;愿老师未来的路越来越好。

    作者回复: 实践的过程中,有问题可以继续给我留言提问。

    2020-04-10
    1
  • li3huo
    之前做2C业务时的线上故障大致能分成两类:1种是由软件质量缺陷导致;另外1种就是上章这种大促场景由于扩容不足、预案不充分时错误应对忙中出错。虽然也有事后复盘,但之前的总结没有这么系统,赵老师讲得真的很好!

    作者回复: 谢谢你的认同,多交流。

    2020-04-22
收起评论
9
返回
顶部