SRE 实战手册
15
15
1.0x
00:00/00:00
登录|注册

09|案例:互联网典型的SRE组织架构是怎样的?

你好,我是赵成,欢迎回来。
前面三讲,我们从故障这个关键事件入手,讲解了“优先恢复业务是最高优先级”这个原则,基于这个原则,在故障发生后,我们要做好快速响应和应急,并从故障中学习和改进。在这个学习过程中,你应该也能体会到,高效的故障应对和管理工作,其实是需要整个技术团队共同参与和投入的。这就引出了大家落地 SRE 都会遇到的一个难点:组织架构调整。
那落地 SRE 必须调整组织架构吗?典型的 SRE 组织架构是怎样的?接下来,我会用两讲内容和你探讨这些问题,分享我在蘑菇街实践的一些经验。

落地 SRE 必须调整组织架构吗?

好,那我们就开始吧,先给你看一张技术架构图。
这是蘑菇街基于微服务和分布式技术的 High-Level 的架构图,也是非常典型的互联网技术架构图,自下而上共四层,分别是基础设施层、业务 & 技术中台层、业务前台层以及接入层,在右侧还有一个技术保障体系。如果你平时经常看一些架构方面的图书和文章,或者听过一些技术大会演讲的话,对这样的图应该不陌生。
你也许会问,咦,我们不是讲组织架构吗?咋一上来就说到技术架构上了?别急,我这么讲是有原因的,在讲 SRE 的组织架构之前,我们需要先明确两点内容。
第一,组织架构要与技术架构相匹配
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

互联网典型的SRE组织架构是一个由多个不同角色组合而成的团队,其核心构成为PE、工具平台开发和稳定性平台开发。文章从故障事件出发,强调了“优先恢复业务是最高优先级”的原则,并探讨了SRE组织架构调整的必要性。SRE必须与微服务和分布式架构相匹配,因为SRE是这些架构的产物。在技术架构朝着服务化和分布式的方向演进时,引入SRE才是合适的。文章以蘑菇街的技术架构为例,阐述了在这样的技术架构下,SRE的角色、职责分工以及协作模式应该是怎么样的。通过技术架构图和发展历程的分析,强调了SRE的重要性和适用性。 SRE组织架构的建设需要与外部协作,发挥稳定性保障的具体职能。在组织进行SRE体系建设和变革过程中,PE角色是最为关键的,因为他们需要与业务开发团队一起对业务系统的稳定性负责。同时,对于读者来说,了解SRE组织架构的特点和重要性,以及各个角色的职责分工,将有助于加深对SRE体系的理解。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实战手册》
新⼈⾸单¥29
立即购买
登录 后留言

全部留言(15)

  • 最新
  • 精选
  • lyonger
    从一个公司的组织架构,往往能看出公司的技术架构。另外很期待老师分享一些云原生领域在SRE下的实践。😄

    作者回复: 这是个很好的议题,我们也正在实践,我会先记下,后面有一定的积累了,我分享出来。

    2020-04-07
    6
  • penng
    我觉得PE这个角色很重要,需要整理业务需求和反馈,沉淀到平台工具开发团队和稳定性开发团队。又需要和业务团队沟通交流,来适配技术中台。虽然他不是一手需求设计者,也不是具体技术中台功能开发者。但是确是关键的核心枢纽。

    作者回复: 你提到的枢纽这个定义,这个定位很关键,理解透彻。

    2020-04-07
    2
    6
  • Jxin
    1.我认为是效能和稳定性工具平台的开发。 2.在所有角色中没有重要的轻重,因为我们要的是保证系统稳定运行这一最终目标,所以,哪怕是一根稻草的重量,那也是同等的重要. 3.但是,搭建整套完善的sre是一个长期的工程,安排好优先级可以让团队和公司在在搭建的过程中获得更高的效益,毕竟效益这个东西不是快照,而是一个时间上的积累。 4.所以,我认为优先做效能和稳定性平台的开发会比较好,因为他能比较快的拿出东西,也没有那么多因地制宜的限制,在sre推进的前期,既可以降低公司的顾虑,也可以提高团队的士气。是个开刀的好口子。至于iaas和paas这两块,能用云先用云。而业务这块,这是一件任重道远的事,不适合做先头。

    作者回复: 非常棒的分享和理解!

    2020-04-07
    6
  • wholly
    SRE角色不仅仅是定位某个问题,还应该具备更全的技术栈及系统思维,当业务发展到一定规模的时候,我觉得这个角色还是很有必要的。

    作者回复: 相当有必要,不可或缺。

    2020-04-07
    3
  • 石头
    国内传统行业的sre组织架构是什么样了的,有必要设置sre岗位吗?

    作者回复: 传统行业,做的比较优秀的,比如部分运营商的SRE组织架构其实跟我分享的是差不多的。有很多还没做到这个程度,需要时间和经验的积累。

    2020-04-06
    2
    3
  • 蒋悦
    请问,什么规模的公司可以选择上云,什么规模的公司可以考虑自建云呢? 我们现在的公司其实规模不小,是自建的云,是否有可能上云呢?是否有可能分批上云呢?比如先让前台上云,成功了,在把中台上云?

    作者回复: 理论上,无论规模大小都可以考虑上云。比如阿里和腾讯内部的系统也都全部上云了,只不过上的是自家的云。 自建的话,至少得像美团、苏宁这样的体量吧,我觉得市面上95%以上的公司都没有必要自建。 分批上云的思路是ok的。

    2020-04-08
    2
    1
  • Quinn
    云原生架构的图中,从左到右是什么轴?为什么敏捷要和虚拟机一起?我的理解是敏捷和devops是相辅相成。devops只是在工具上支持敏捷而已。希望细致讲解一下这张图的用意。

    作者回复: 这张图的重点在我们标注的第三列,我们主要是想说明,微服务、分布式、devops、sre、容器等等,这些概念并不是独立存在的,它们之间是有关联关系的。 其它几列,只是类比同一个阶段内,这些技术是同时出现的,代表了一个时代的技术特点,但是关系可能没有像第三列这么紧密。

    2020-05-05
  • Geek_80674c
    老师你好, 请问对于在大厂私有云里做基础架构层的运维,也就是你文中指的传统运维,有什么职业发展的建议吗?文中对这个职位介绍比较少,大厂里基础架构部人数也不小,所以希望可以指导职业发展。 是向PE转型比较好?

    作者回复: 建议可以往上走,也就是做PE或业务运维,再往上,可以尝试运维开发等等。 这里我的理解,个人的转型,一方面要靠自己,另一方面,所在的组织也有责任,要提供这样的轮转通道才可以,不然个人努力,但是组织不给机会,就会变成一厢情愿或者死循环。

    2020-04-27
    3
  • 蒋悦
    看了这个组织架构,我都不好意思说我是哪家公司的,传统行业,差距太大

    作者回复: 适合的才是最好的,互联网公司可以这样做是因为没有太多的历史包袱,传统行业更重要的是确定好方向,循序渐进。

    2020-04-08
  • leslie
    个人觉得技术运营或者说去年GOPS大会提及的运维运营:这个其实是个中间层,熟悉产品、懂得且能处理技术相关的问题、能针对现状提出问题;个人可能对此还有更深层次的整体设计的事情。 站在中间且能看到两头大致梳理好两头其实这是任何事情发展到中期必然要面对的问题:中台的概念个人觉得其实同样基于此。就像我们说起系统运维,这个其实同样有两头硬件设备和网络,系统只是中间而已,如果硬件方面和网络方面没有处理好系统、、、 谢谢老师的分享尤其是云原生架构图引发的反思,期待后续的课程。
    2020-04-06
    4
收起评论
显示
设置
留言
15
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部