SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
993 人已学习
新⼈⾸单¥59
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

06|可靠性文化和规范:人是万物的尺度

你好,我是白园。今天来进入可靠性的最后一个部分——文化和机制。
我们前面探讨了构建可靠性的各项基本技能,现在让我们聚焦于如何通过优化人员管理和文化、制度建设来提高团队的凝聚力和效率。
我之前遇到过一个比较严重的故障,在一次晚高峰期间,某个同学偷偷做了一次线上变更,导致大量请求失败,影响极大。但是更加严重的是这个同学因为害怕,第一时间选择了故意隐瞒,导致问题持续扩大,最后在证据面前才不得不承认。最后整个团队都受到了非常严厉的处罚。
在系统的可靠性构建中,人为因素占据了极高的风险比重,并在许多情况下发挥着关键乃至决定性的影响。仅依赖工具和平台提供的预防措施与优化手段是远远不足以保障系统全面稳定的。人才是万物的尺度。影响人才能起到最终的决定性作用。
机制不仅仅是为了预防工程师出错,另一个层面也是为了保护工程师,如果一个工程师严格按照流程规范进行,最终就算有故障发生也不会影响传导到人的身上。

从哪些方面进行建设?

在规范方面,我们需要确立一套基本的行为准则,作为团队成员必须遵循的最低标准。类似于三项纪律、八项注意的原则,要求每位成员深入理解并严格遵守。
在奖惩机制方面,应当建立一个明确的评价体系,确保对团队成员的行为给予及时且公正的反馈。对于表现出色的成员,应当给予相应的奖励以示鼓励;而对于未能达到标准的行为,则应实施相应的惩罚措施,以促进纪律的执行和维护团队的整体效能。我们可以有效地激励团队成员积极进取,同时确保团队目标的顺利实现。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 构建可靠性文化和规范是提高团队凝聚力和效率的关键。 2. 规范建设包括确立行为准则、建立奖惩机制和遵循核心规范。 3. 红线规范要求在维护窗口期内进行线上变更,执行分级发布和效果检查,严禁故意隐瞒故障。 4. Oncall规范优化建议包括响应时间规定、通告和交接流程、问题求助与学习、内容与产出、响应准备和通讯畅通。 5. 复盘规范要求准备、讨论和执行,以及高质量的故障报告和原因分析的关键维度。 6. 奖惩制度的优化建议包括及时反馈、设立可靠性奖项、金钱与职业发展、适度提醒和批评、绩效评估中体现成员的错误和过失。 7. 环境渲染是构建可靠性文化的重要手段,包括在办公环境中融入可靠性文化的元素、制作实用的文化周边产品、鼓励公开分享和表彰榜样示范。 8. 重点强调避免在分析原因的过程中出现自我逃避、简化问题、外部归咎、环境借口、历史问题和个人问题泛化。 9. 构建可靠性文化需要持续的关注和锻炼,不可能一蹴而就,需要时间和持续的努力。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部