罗蛟,百度共享技术平台部经理
超大规模在线分布式系统,每时每刻都响应着无数的用户真实请求,在服务大规模异常的时刻,尽可能的响应用户请求,而不是拒绝,尽可能快的自动化止损甚至自愈,尽可能准的根因定位甚至自动化智能化,这些都给我们的工作提出了越来越高的要求和挑战。
为此,我们在系统架构、流式数据处理、动态决策等多个层面进行了系统化的设计。借助这一套系统,我们实现了分钟级到十秒级最终到秒级的感知和决策止损系统,大幅度的的减少了故障时刻的损失量级和故障持续时间。本次分享,也主要集中在以上几个方面我们的一些实战经验。