SRE 实战手册
15
15
1.0x
00:00/00:00
登录|注册

10 | 经验:都有哪些高效的SRE组织协作机制?

你好,我是赵成,欢迎回来。
上节课,我们讲了在互联网企业典型的 SRE 团队中,一般包含几个关键角色,PE、工具开发和稳定性开发,他们分别承担的职责就是业务运维、建设运维自动化平台和建设稳定性平台。在建设这些平台的过程中,这些角色对内要与中间件团队合作,基于微服务和分布式的架构来开发各类平台;对外,还要与业务开发配合,将提升效率和稳定性的能力提供出去。
但是仅仅有组织架构,有了队形还是不够的,各个团队和角色之间必须要配合协作起来才能发挥出 SRE 的作用,特别是对外与业务开发的合作,这样才能是一个有机的整体。
那怎样才能将这些角色有效地组合到一起呢?今天我就和你分享下我的经验,总结起来就是四个字:以赛带练

什么是“以赛带练”?

“以赛代练”这个术语最早也是在一些体育赛事中提出来的,完整解释是通过比赛带动训练。比如足球、篮球或田径等比赛,目的就是让运动员在真实的高强度竞争态势和压力下,充分暴露出个人和团队的不足及薄弱点,然后在后续的训练中有针对性地改进,这样对于比赛成绩的提升有很大帮助,而不是循规蹈矩地做机械性训练。你也注意到,我用的是“带”,而不是“代”,所以整个过程不是用比赛代替训练,它更主要的作用是带动。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

SRE团队的高效协作机制和“以赛带练”策略是本文的重点。通过“以赛带练”,SRE团队能够在极端场景下暴露系统稳定性问题,并有针对性地改进。文章强调了极端场景如双十一大促、春晚抢红包等对系统稳定性的有效检验,促使稳定性保障技术和理念的发展。在SRE团队中,各个角色的协作机制至关重要,特别是在电商大促等场景下,各角色需要紧密配合,从全局角度关注系统运行状态,评估容量需求,制定应急预案,并进行压测验证和调优。此外,文章还提到了大促场景下的协作机制可以例行化,包括核心应用变更评审和周期性技术运营工作。通过“以赛带练”策略和高效的协作机制,SRE团队能够持续提升系统稳定性和效率。这些策略和机制对于SRE团队的重要性不言而喻,也为其他团队提供了宝贵的经验和启示。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实战手册》
新⼈⾸单¥29
立即购买
登录 后留言

全部留言(8)

  • 最新
  • 精选
  • wholly
    平时以赛带练的场景有很多,除了系统集成测试方的压力测试、可靠性测试、性能专项测试外,还经常做一些局点演示及故障模拟训练,这些都是一些快速暴露问题和提取改进点的有效方式,持续提升系统稳定性。

    作者回复: 局部的演练测试也是一种有效策略。

    2020-04-08
    5
  • lyonger
    我认为SRE的协作机制主要有2种,一种是对外,另一种是对内。对外的协作机制更多的是依托业务场景制订的、双方达成一致的协作规范规范,比如发布规范,配置管理规范,服务变更规范,容量规划规范等。对内的话,业务运维,工具开发,稳定性开发需有一套可正常流转的SOP,确保团队成员的协作规范和需求跟踪全流程,内外兼修,方可游刃有余。😄

    作者回复: 非常棒!

    2020-04-09
    5
    2
  • 小炭
    学习经常搞的模拟考试就是“以赛带练”的思路吧

    作者回复: 也是一种,但是要相对正式的那种才行

    2020-11-08
    1
  • 老张
    我目前就职的公司是电商类企业,以赛带练最符合的场景就是每年的大促了。我自己本身是性能测试,但通过几次生产全链路压测,发现我的工作内容和老师本节课程的中所提到的PE角色很类似。无论是前期准备阶段的链路梳理强弱依赖,数据预埋模型分析,还是整个压测节奏的把控,全局进度跟进和风险分析,压测复盘,以及大促当天的值班指挥,甚至是某部分预案的决策,都会参与其中。通过很多的压测和复盘,自己也模糊看到了性能测试工程师的职场发展方向,是向稳定性保障的角色靠拢,通过学习老师的课程,也买了《Google sre运维解密》书来看,发现PE或者说类似SRE的角色,是很适合的前进方向。
    2021-01-29
    1
    3
  • Geek_f35d52
    日常运维中发现有一个问题,特别是微服务化后,每次变更发布,开发如果有调整了接口的调用,而又没有及时更新相关资料的话,会直接影响运维的效率。在现在的敏捷开发中,代码迭代很快的,这样的话,实际中是怎么处理的呢
    2020-06-01
    1
    1
  • 旭东(Frank)
    PE和业务开发分工并没这么明确
    2020-04-20
    1
    1
  • leslie
    "以赛代练"个人觉得这种方式应当是源自体育:尤其是一些主要的比赛,我们会发现有各种各样的比赛;真正的比赛可能就是联赛,不同情况下还会有各种舍取。 电商平台中不少典型的可能会在双11之类的大型促销出现的策略,我们已经能够在平时的小型促销中去看到;合适的策略就是在生产环境的某些场景中可以利用平时业务量不大降低资源投入,非真正核心交易环节,平时降低资源投入测试一下其实风险并不大,只要随时能跟上就行。例如:快递有时我们会无法知道中间到哪儿了,不过发货方或收件方对于途中到哪儿其实并不关心,确定发出以及到了收获城市会有提醒就好。 记得之前听DevOps课程中就有提及过,"用重要而非绝对核心的业务去测试,循序渐进。"谢谢老师今天的分享,期待后续课程的分享。
    2020-04-08
    1
  • 于加硕
    赵老师,你好 技术中台 到 业务中台 之间的运维岗位被称为 应用运维,业务运维,技术运营;为会会有这三种不同称谓的岗位呢?他们应该是有不同侧重点的吧?能否详细介绍下差异
    2020-10-31
收起评论
显示
设置
留言
8
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部