刘宏伟,美团资深技术专家
外卖业务持续高速成长,业务迭代快,逻辑复杂,关联服务多。如何快速准确识别系统各项指标的异常,发现问题根因,并快速解决显得尤为重要。在常规业务指标监控工作中需要手动维护上万业务指标报警阈值,不仅成本高,效果也不佳。我们尝试使用“形变分析模型”对业务指标自动进行异常检测,无需人工设置阈值。在实践过程中与外卖全链路压测,服务保护等稳定性保障系统进行内联,目前已覆盖绝大部分美团外卖 C 端核心业务指标,效果不错。
1、美团外卖业务稳定性建设现状
业务指标特点
异常检测在整体架构中的位置
2、形变分析模型介绍
形变分析模型的算法过程
自适应阈值计模型介绍
形变分析模型的能力边界和使用范围
形变分析模型的变种 - 变点检查模型介绍
报警收敛规则以及自适应报警收敛模
3、形变分析模型和其他异常检测模型对比
4、业务异常检测系统的整体设计
5、与全链路压测和服务保护系统内联
6、落地情况以及实践效果