开篇词|SRE是解决系统稳定性问题的灵丹妙药吗?
标杆立在那里,落地 SRE 有哪些问题?
这门课程是如何设计的?
- 深入了解
- 翻译
- 解释
- 总结
SRE的重要性和实践指导 SRE(Site Reliability Engineering)作为解决系统稳定性问题的重要手段备受关注。本文由蘑菇街平台技术部主导的赵成分享了SRE领域的经验和见解。文章首先介绍了SRE的重要性,强调其作为稳定性的代名词。作者分享了团队在稳定性保障方面的实践经验,并指出SRE是必修科目。在落地SRE时可能遇到的问题方面,文章探讨了对SRE角色的误解以及实践中的困惑和挑战,并提出了解决问题的方法,如建立稳定性的标准化和借鉴组织架构建设的经验。整篇文章围绕SRE的重要性、实践中的问题和解决方法展开,为读者提供了对SRE的深入了解和实践指导。文章内容涵盖了SRE的基础建设和最佳实践,包括SLO的重要性、故障处理和组织架构的关键性,为读者提供了系统的SRE学习之旅。
2020-03-1820人觉得很赞给文章提建议
《SRE 实战手册》,新⼈⾸单¥29
全部留言(34)
- 最新
- 精选
- 于加硕一直在看找老师的书,这次就当听书了,看了下精选留言,分享下目前我的认知:DevOps核心是做全栈交付,SRE的核心是稳定性保障,关注业务所有活动,两者的共性是:都使用软件工程解决问题; DevOps的诞生是由于互联网商业市场竞争加剧,企业为减少试错成本,往往仅推出最小可行产品,产品需要不断且高频的迭代来满足市场需求,抢占市场(产品的迭代是关乎一整条交付链的事),高频的迭代则会促使研发团队使用敏捷模式,敏捷模式下对运维的全栈交付能力要求更严格,则运维必须开启DevOps来实现全栈交付;因为不断的迭代交付(也就是俗称的变更)是触发故障,非稳定性根源,而互联网产品/服务稳定性缺失会造成用户流失,甚至流到竞争对手那里, 因此关注业务稳定性也变得十分重要,SRE由此诞生。希望看完赵老师的课程后对理论能有所提升。
作者回复: 非常棒,目前为止,看到的最深入,最精彩地解答。
2020-03-19256 - leslie学习过程有点不一样:先学了老师《赵成的运维体系管理课》,然后又把里面相关推荐的书基本都看了数遍,本想找个平台去整合一切,又误打误撞在做数据系统架构和管理;下半年把全栈工程师的课学了一遍,雪峰老师的DevOps学完了且参加了相关的大会去交流学习。 自己近十年一直是在数据系统和系统运维之间作为主业:其实之前国内运维大会以及运维圈子的交流中有感受到SRE和DevOps其实相辅相成。极客时间DevOps都出了,SRE不出似乎不合适;课程终于出来了算是等待了数月的课程吧。 希望能够在课程学习中把之前老师课程中提及的运维体系和SRE的东西融入其中去更好的理解,真正理解好SRE且用好,觉得没有那么容易。 期待数月的课程终于出来了:希望完课时能站在不一样的视角去理解课程以及更好的理解老师之前的《赵成的运维体系管理课》。谢谢老师的分享。
作者回复: 感谢你的认可。既然已经学习了这么多内容,你可以试着看一下,提出一个你现在遇到的具体问题,因为DevOps也好,运维也好,还是SRE也罢,只是一种方法和思路,但是只有能解决你的问题才会有用。
2020-03-18210 - null来字节跳动做SRE 呀, 感兴趣的留言 ;-)
编辑回复: 你来给大家做个分享吧要不
2020-03-18107 - Helios老师,现在的困惑是sre和devops有啥关系呢。感觉有的devops团队会把sre的事情搞了呢
作者回复: 不出所料,这个问题大家果然有疑惑,不过期望大家看完接下来的01篇之后,再来思考一下。
2020-03-18117 - 沈子砚Stella这是成哥本人的声音吧
作者回复: 确认就是本人^_^
2020-03-1844 - Geek_kevin非常想了解一下,线上系统变更,在SRE中是如何做的?
作者回复: 理想状态,SRE是可以不用介入其中的,整个发布流程可以由开发自动化的完成,SRE只需要关注系统的SLO是否受到影响即可,关于这部分的内容,我后面会讲到。
2020-03-223 - 曙光做为JAVA工程师,学习SRE会获得什么启发呢?
作者回复: 更全面和系统的了解软件架构。 另外,懂开发的SRE现在可以市场上紧缺的人才奥。
2020-03-203 - 初级SRESRE由运维而来,但是运维不是全部。 作为一个由传统作为转到SRE的人,我希望能够尽快理解差异,不足短板
作者回复: 第一句话分享的很有感触。同时,也恭喜你找对了不断和提升的方向,就是SRE。
2020-03-1823 - kaizen目前在一家外企做了半年多SRE了,希望能在这门课上有新的启发
作者回复: 期望这么课程对你有帮助,如果有任何具体的问题,欢迎在留言区给我提问
2020-03-1853 - epic2005成哥,SRE 如果在云上 有哪些Ops工作要做呢?
作者回复: 这是个很好的问题,业务上云一般只能解决基础层面服务问题,但是业务和应用还是自己的,这就需要把运维的视角提升到这个层面,要关注业务和应用的稳定性。
2020-03-1922