当前播放: 百度云报警通告系统的下一幕
00:00 / 00:00
标清
  • 标清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看

百度云报警通告系统的下一幕

周伟 百度智能云事业部资深研发工程师

周伟,百度智能云事业部资深研发工程师

内容介绍

如何快速发现产品故障是运维领域的重要课题,而监控系统是故障发现中的重要一环。Noah 监控系统是百度智能云自主研发的监控平台,该平台提供海量指标采集、分析计算、存储、报警通告等功能,为提升百度各业务的可用性和用户体验做出了重要的贡献。

本次演讲将重点剖析百度云 Noah 监控系统的重要一环 ——报警通告系统。

报警通告系统包括异常判断、事件管理、报警发送三个部分。

在报警通告部分,我们将介绍报警通告系统如何轻松应对每秒千万级别指标的异常判断?如何支撑智能异常检测和多维度数据分析等最前沿的 AIOps 算法的落地。

在事件管理部分,我们将介绍如何建立报警的逐级通告机制,防止运维人员遗漏核心报警。

在报警发送部分,我们将介绍如何挖掘异常事件之间的潜在关联并动态合并,以及如何应对报警风暴对系统架构的冲击。

最后,我们会总结百度云监控的工程实践经验 。

内容大纲

  1. 报警通告系统存在的挑战;
  2. 方案介绍(AIOps 算法的落地、逐级通告、报警合并);
  3. 报警通告系统的架构;
  4. 工程实践经验。
展开
¥4.99 购买
开通VIP
8
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
其他推荐
41:44
去哪儿网监控报警平台的设计和演化
郑松宽 去哪儿网高级运维开发工程师
试看
41:03
Apache SkyWalking V6.0可定制开源APM
彭勇升 永辉云计算 合伙人
试看
43:33
Istio在FreeWheel微服务中的实践
杨谕黔 FreeWheel 基础架构部高级软件工程师
试看