周伟,百度智能云事业部资深研发工程师
如何快速发现产品故障是运维领域的重要课题,而监控系统是故障发现中的重要一环。Noah 监控系统是百度智能云自主研发的监控平台,该平台提供海量指标采集、分析计算、存储、报警通告等功能,为提升百度各业务的可用性和用户体验做出了重要的贡献。
本次演讲将重点剖析百度云 Noah 监控系统的重要一环 ——报警通告系统。
报警通告系统包括异常判断、事件管理、报警发送三个部分。
在报警通告部分,我们将介绍报警通告系统如何轻松应对每秒千万级别指标的异常判断?如何支撑智能异常检测和多维度数据分析等最前沿的 AIOps 算法的落地。
在事件管理部分,我们将介绍如何建立报警的逐级通告机制,防止运维人员遗漏核心报警。
在报警发送部分,我们将介绍如何挖掘异常事件之间的潜在关联并动态合并,以及如何应对报警风暴对系统架构的冲击。
最后,我们会总结百度云监控的工程实践经验 。