郑焱,百度资深运维工程师
百度 APP 信息流产品做为百度公司的核心产品,线上迭代频繁,半年流量大规模增加,晚高峰期容量风险较大,2017 年因高峰期切流量出现数次容量过载的问题,造成用户拒绝,影响用户体验 ;随着业务的稳定性要求越来越高,如何在资源有限的情况下,通过自动化的方式,在规避容量过载风险的情况下,尽可能的缩短故障的止损时间,是我们必须考虑解决的实际问题。本次分享,主要是讲述资讯流产品在高峰期故障自愈的一些实践,从产品以及技术层面上介绍一下自动化降级方案设计,以及自动流量调度和自动降级联动止损在资讯流产品的实践。