当前播放: 从标准到落地:数据驱动的风险防范体系建设
00:00 / 00:00
普清
  • 高清
  • 标清
  • 普清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
合辑:DevOps Top案例
从标准到落地:数据驱动的风险防范体系建设

从标准到落地:数据驱动的风险防范体系建设

来炜 滴滴出行技术总监

来炜,滴滴出行技术总监。

内容介绍

运维工作中,通常会通过制定标准来预防风险、沉淀经验以及和周边团队形成共识。但常出现的情况是标准的影响会随着时间而减小,甚至被遗忘抛弃。一个较好的解决办法是将标准落地到各个平台,由平台来保证标准的执行。但这也有一些难以解决的问题:

  1. 标准有控制不了的部分:有一部分风险是标准无法控制的,比如一个业务线频繁的出现上线回滚,但标准并不能规定上线不能回滚或回滚的比例,这样的业务线我们如何驱动他们自省?

  2. 标准有弹性的部分:标准中通常也有一些需要人为拿捏的部分,比如变更在灰度阶段的暂停检查时长,通常是越长越安全,但平台通常只能约束到一个固定值。如何驱动大家做更充分的检查呢?

  3. 标准有被打破的特殊情况:比如标准规定禁止在业务高峰期变更,但由于紧急的问题修复或业务需要,又必须临时批准部分操作,这样的操作风险如何控制?

  4. 缺少风险的全局视图:通常 SRE 在 push 业务线做标准改进和控制的时候都只能针对一些局部进行推进,同时业务线的负责人也看不到全局的情况和风险的严重程度,因此推动较为困难,如何破解?

基于以上问题,滴滴建立了一套完善的风险量化体系,通过自动采集用户的平台操作数据、运维数据并自动计算量化出每个业务线的运维风险,落地到一个具体的分数,最终形成排名和竞赛机制,以达到促进标准长效执行的目的。本主题将重点介绍滴滴如何建设这套运维风险量化体系并成功运转长期有效降低业务运维风险的实践,同时还将分享建设和落地这套风险量化体系的实践心得。

展开
5
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
其他推荐
45:44
Backend For Frontend(BFF)in Serverless
杨凯(亚顿) 阿里巴巴高级前端专家
试看
45:15
美团一站式业务稳定性保障平台的 AIOps 实践
宋斌 美团点评到家事业群配送技术部 资深技术专家
试看
34:28
基于 Kubernetes 的 DevOps
倪朋飞 Microsoft Azure Senior Software Engineer
试看