结束语｜聊聊我的SRE落地心路历程

赵成

你好，我是赵成，不知不觉我们已经来到了结束语，非常感谢你的一路陪伴。
学完咱们的专栏，我想对于 SRE 到底是怎么一回事儿这个问题，你应该有一个大致的了解了。就像我们在开篇词中提到的，SRE 真的没有那么神秘，你平时在做的很多事情本身就属于 SRE 的范畴，学到这里，你应该对此深有体会了。
其实这个感受我也是在不断实践的过程中总结出来的。刚接触这个概念的时候立马被它吸引，但同时也觉得这东西有点儿高大上，自己有种心有余而力不足的感觉。幸好和团队一起，就是一点一点死磕，解决一个又一个具体的问题，然后因为一直有这样一个大的框架和目标在那里，最后慢慢发现，这个框架居然已经落地得差不多了。如果总结下我自己实践 SRE 的心路历程，我觉得王阳明《传习录》里的“知者行之始，行者知之成”就特别恰当、准确。
你是不是在想，这不就是知行合一嘛，也没啥特殊啊！嗯，确实是，听起来、说起来都挺简单的，但是很多时候我们想要做到还真不容易。
其实，在学习这个课程的过程里，我们也需要知行合一，从知出发，到行完成一个闭环，然后积累新的知，把这个知行的循环一直继续下去。
这么说，有点抽象，这里我特别举咱专栏里一位同学的例子。这位同学名字叫胡凯，他一边学习课程，一边和我探讨一些 SRE 问题。每次提问，他总是可以带着具体场景和具体问题，非常有针对性，而且针对不同的场景，他又会有自己的一些见解和解决方案，然后在与我讨论的过程中，不断迭代优化他的思路和方案，特别是在 SLO 设定这一块，因为很多监控指标都是现成的，他马上就根据我们课程里给出的 VALET 方法，整理出了一个新的表格，这种从更多 SLO 维度分析稳定性的方法，一下子就解答了他之前一直以单一维度判断稳定性的很多疑惑和问题。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

SRE（Site Reliability Engineering）是一个旨在提高系统稳定性和可靠性的领域，本文以作者赵成的SRE实践心路历程为主线，深入探讨了SRE的实践方法和理论基础。作者强调了知行合一的重要性，鼓励读者通过实践、思考和优化不断提升自己的SRE能力。文章还通过举例说明了学习SRE的过程中需要关注具体场景和问题，并分享了一位同学在SLO设定方面的经验。作者强调了从实际问题和场景出发，解决问题并参考优秀实践案例的重要性。最后，作者呼吁团队和同行一起实践、总结、分享，共同探索适合自己的SRE实践之路。整体而言，本文通过作者的亲身经历和案例分享，为读者提供了一条贴近实际的SRE实践之路，强调了实践和经验积累的重要性，为SRE领域的学习者提供了有益的启示和指导。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《SRE 实战手册》，新⼈⾸单¥29

立即购买

登录后留言

全部留言(15)

最新
精选

艾比利夫
谢谢老师一个月的分析，一章不差的看完了，收获颇深。我和大家不太一样，我在一个小公司就职。所以在学习各种大厂体系的过程中，总有一个困惑，就是体系很牛，但我没法用，因为小公司无论人力资源、技术能力、硬件能力等都太小了，即使理论上学了，但根本无法耗时耗力搭建这么一套东西。但这次我学习咱们的SRE体会就不太一样，我先了解了MTBF、MTTR(更细的说是MTTR里的四个阶段)，然后对照我们公司的自身的情况对照着表格看，看看是哪个环节是目前的薄弱环节。这样即使我无法向您一样搭建整个体系，我也能针对性的解决最薄弱的环节。但老师您在课程中也有说：SRE是一套体系，多部门合作出来的，并不是某一个点或某一个技术，那请问老师，对于我们这些中小型公司，资源有限，那怎么做才能让系统全方位的稳定起来呢？
作者回复: 可以针对现在的问题做个排序，从最消耗你精力，最让你难受的的问题入手。大处着眼，小处入手。
2020-04-10

10
天草二十六
大清早看到更新了，第一时间转发了这段到朋友圈：其实，在蘑菇街实践 SRE 的时候，我们也不是天天把 SRE 挂在嘴边，也不是动不动就提 DevOps、AIOps 这些名词的，相反，我们提到的更多是面对某个场景，我们的容量评估应该怎么做？细化到每个应用、每个接口上限流阈值是多少，降级和熔断的具体判断策略是怎么样的？发生故障时，我们 Step by Step 的响应过程应该是怎么样的？需要哪些人参与？大家应该怎么协作？对于监控，怎么才能更准确？需要用到什么具体算法，参数应该怎么设定？…… 我想，这才是我要去实践的，不是跟领导或同事灌输思想
作者回复: 对，不要被Buzzword给迷惑了。
2020-04-10

6
李杨
谢谢赵老师分享！感觉 DevOps 和 SRE 相辅相成，没有 DevOps 的CI、CD、监控就没有SRE的SLI, SLO。返过来，没有SRE的指标，DevOps也不知道往哪个方向发展。
作者回复: 很精辟的理解。
2020-04-25

4
leslie
SER/DevOps与另外一个现在提出很多的概念“中台”类似，落地的过程其实就是循序渐进中梳理出自己的东西；然后不断反复。概念是浮在面上的东西：如何合理去体现在实践中去摸索相关实践修正这其实是大家需要探索的一条路。概念无处不在如何合理组合然后落地这个是一条漫长的路。谢谢老师一路的分享，希望将来还有机会交流学习；愿老师未来的路越来越好。
作者回复: 实践的过程中，有问题可以继续给我留言提问。
2020-04-10

4
wholly
跟着老师把课程学完了，谢谢老师，老师辛苦了！就像老师说的，学习课程还只是一个理论的开始，后面更关键的是结合理论不断实践不断思考，把实际遇到的场景和问题一个个解决闭环，才能真正成为一个优秀的SRE。
作者回复: 一起努力，也希望看到大家更多关于SRE实践方面的分享。
2020-04-10

3
Mander
感谢老师分享
作者回复: 也感谢你的聆听和阅读，一起进步。
2020-04-10

2
大尾巴老猫
这么快就结束语了？还意犹未尽...
作者回复: 还想听什么可以留言给我哈
2020-04-10

1
台风骆骆
知行合一，从具体场景，业务出发。把学到的知识真正融入到业务中，然后反哺知识，形成闭环
作者回复: 一起努力。
2020-04-10

1
小广
感谢赵老师提供了那么优质的课程，特别是课程前面部分的内容，基础性知识讲解得非常细致，这部分内容可移植性和可适配性非常好，对指导改变现实中的问题帮助非常大😄后面我会尝试使用这些指导思想定义我司的稳定性指标，希望能有个好的开始(^_^)v祝老师🐯年顺利
作者回复: 加油，共同进步
2022-02-24


Browser
很有收获，目前公司内部也老是遇到各种问题，每次都充当救火队员，根据老师的这份资料，决定实践一下
作者回复: 加油，也可以多给我们分享一下你的实践
2020-10-24



收起评论