你将获得
- 理解 SRE 的正确姿势
- 10+ SRE 必学必会知识点
- 可落地的故障应急处理机制
- 2 种典型 SRE 组织架构案例分享
课程介绍
SRE(Site Reliability Engineering),网站稳定性工程,最早是由 Google 设置的一类工程师岗位,专职负责其超大规模分布式产品(如搜索、Gmail、Docs 等)的稳定性。而后,SRE 慢慢发展成了一系列面向稳定性的,包括技术、管理、流程、组织架构,以及文化建设的最佳实践,并最终被提炼成一套方法论,广泛流传。
在国内,SRE 的这套方法论,也被很多企业的 IT 团队作为技术能力提升和组织转型,特别是运维转型的参考标准。但是,在实际落地这套方法论时,大家有很多疑惑,比如:
- SRE 如果不是运维的升级版,那它到底是什么?
- SRE 涉及范围如此之大,到底应该从哪里入手建设呢?
- 在稳定性方面,有些公司已经做了很多工作,特别是在技术体系搭建上,为什么还是故障频发?难道单纯的技术保障还不够吗?
- 引入了 SRE,团队的能力应该怎么提升?组织架构应该怎么匹配呢?
因此,我们邀请赵成老师开设了《SRE 实战手册》这个课程。他将结合自己的实践经验,从基础理论和实践操作两方面入手,一次性解决你心中的困惑,帮助你正确认识 SRE,掌握可落地的实践方法。
这个课程分为基础篇和实践篇两大模块。
- 基础篇:带你从实践的角度理解 SRE 是什么,并以 SRE 的基本概念 SLO 和 SLI 作为切入点,教你一步步建立起 SRE 稳定性标准。最后结合具体的电商案例,分享在实际场景中设定稳定性目标应该考虑的因素。
- 实践篇:围绕“故障”这个影响稳定性的核心事件,分享故障发现、故障处理、故障复盘三个阶段的最佳实践。同时,着眼落地 SRE 时绕不开的组织架构问题,分享真实的组织架构设置实践和高效的跨团队协作经验。
课程目录
查看更多
免费试读
适合人群
有 1 年以上运维和开发经验的工程师,运维领域架构师,业务架构师,技术团队负责人。
不管你是否正在落地 SRE,只要你关注系统、业务或应用等的稳定性问题,这个课程都适合你学习。
![](https://static001.geekbang.org/resource/image/72/de/72b6ffabee34afef6c9303ca98d846de.jpg)
编辑推荐
![](https://static001.geekbang.org/resource/image/86/e2/86d2bc0306e6f781c36420ee2a3295e2.jpg)
讲师的其他课程
![](https://static001.geekbang.org/resource/image/a2/60/a2164acace1769b3ea890af947e55c60.jpg)
包含这门课的学习路径
![](https://static001.geekbang.org/resource/image/25/d0/2541de63f52593f6ea77ae38441d46d0.jpg?x-oss-process=image/resize,m_fill,h_74,w_74)
运维工程师
32门课程 149.1w人学习
看过的人还看了
![](https://static001.geekbang.org/resource/image/1b/ba/1b55645096bc6d40623601e33f87bcba.jpg)
![](https://static001.geekbang.org/resource/image/d4/74/d46d28c922505c8070eff6daa3192d74.jpg)
![](https://static001.geekbang.org/resource/image/e2/be/e2ca3fac4ce89053602b9e7a6d9c02be.jpg)
![](https://static001.geekbang.org/resource/image/65/c0/65dc525140a25af39b780aaae65821c0.jpg)
![](https://static001.geekbang.org/resource/image/c6/63/c68f8834b42308fd22aa41c1ce249363.png)
![](https://static001.geekbang.org/resource/image/59/fa/59bf6564e78474d28eyyd2c5457ae6fa.png)