AIOps 实战课
张云河
资深系统架构师
29 人已学习
新⼈⾸单¥39
AIOps 实战课
登录|注册
留言
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 01|实验一概览:理论基础与实验环境准备
00:00 / 00:00
字幕已开启
高清
  • 高清
1.0x
  • 3.0x
  • 2.5x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
课程介绍|传统运维的挑战及AIOps核心价值与场景
04|代码实战(二): 模型训练、预测与评估
02|指标异常检测中用到的数据
03|代码实战(一):数据加载与预处理
01|实验一概览:理论基础与实验环境准备
05|代码实战(三):结果可视化
06|代码实战(四):定义主函数,并验收实验结果
本节摘要

以下文稿由 AI 整理,仅供参考。

基于机器学习的指标异常检测:从理论到实验环境搭建

一、异常检测的基本概念

异常检测是机器学习中指标异常检测的基础,其核心目标是识别数据中与正常模式偏离的现象。通过数据分析,找出不符合常规的数据点,从而发现潜在问题。在智能运维(AIOps)领域,指标异常检测是一项常规操作,具体来说就是要识别出数据中与正常模式偏离的异常点。

在实际运行指标中,正常数据往往呈现出一定规律。以服务器的 CPU 利用率为例,工作时间通常会维持在 30% 到 60% 之间,夜间一般保持在 10% 到 20%。如果 CPU 利用率突然飙升到 90% 以上,或者骤降到 0%,这就表明出现了异常,监控到的数据即为异常数据。异常检测的目的正是通过 AI 算法将这些异常数据点识别出来,最终实现事前预测,发现潜在的系统问题。

二、动态极限与静态值

在指标异常检测中,动态极限和静态值是两种重要的参考标准。

静态值是一个固定阈值。例如,将 CPU 利用率的告警阈值设置为 80%,一旦超过 80% 就触发告警。这种方式简单易实现,适用于数据相对稳定的场景,如企业内部的办公服务器。但它的缺点也很明显:面对动态变化的数据场景(如电商大促期间,CPU 利用率会大幅上升),固定阈值容易产生大量误报,此时就不再适用。

登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论