滴滴出行是如何提高故障处理效率的?
极客时间编辑部
讲述:杜力大小:1.26M时长:02:45
故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也随之增大。滴滴现在服务近 4 亿乘客、1700 多万司机、覆盖 400 多个城市,有超过 10 个业务线对外提供服务,业务的高速增长对稳定性工作来说是个极大的挑战。为了解滴滴在故障处理以及稳定性建设方面的工作,InfoQ 记者对滴滴资深运维工程师张云柳进行了专访。
稳定性建设是一个很大的话题,涉及多个部门、各个内部平台之间的协作。张云柳主要从整体的处理流程、故障生命周期的分阶段投入等几个方面入手,介绍了滴滴是如何处理故障,提高处理效率的。
在公司层面,滴滴以内部竞赛的形式来促进公司整体稳定性建设工作的开展。每个季度都将总结稳定性建设最好和最差的服务,并有相应的奖惩方案。得益于竞赛机制的良性循环,故障发生后,各个可能涉及的团队都会迅速跟进,使故障处理效率得以大幅提高。
从技术思路出发,滴滴把故障处理分为预防、发现、定位、止损、恢复几大阶段。其中发现、定位、止损三个是故障现场的重点阶段,也是提升故障处理效率的主要阶段。
快速发现方面,除了传统的系统指标监控之外,滴滴以“业务不可用时长”来定义业务状态,当任何一个关键业务指标下跌一定比例时,则认为当前业务不可用。这里最大的挑战是如何准确判断业务指标下跌,因此,公司“核心业务监控”在异常检测上重点投入,实现智能报警,做到业务不可用时能及时、准确地发现。
快速定位方面,随着业务规模越来越大,各种监控也越来越多,为了能快速从众多监控、变更中找到故障根因,滴滴引入了“事件监控”,事件监控的目标是将各维度的监控报警、各系统的变更以事件的形式整合为一个 timeline,从众多的事件中智能筛选出故障根因。
快速止损方面,更重要的是平时预案的建设。在预案建设上,滴滴主要从时效性、完备性、可执行性三个方面综合评估。时效性是指每个预案都应当有保质期,需要及时 review;完备性是考察各关键系统对预案场景的覆盖率,滴滴从网络、程序、安全等几个方面综合梳理了一个比较通用的场景列表,以此作为规范;可执行性是指预案建设后,还需要通过演练来确定是否能够达到预期目标。最后,滴滴通过评分机制来引导各个关键系统完善其预案,提升故障处理效率。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论