以下文稿由 AI 整理,仅供参考。
异常检测是机器学习中指标异常检测的基础,其核心目标是识别数据中与正常模式偏离的现象。通过数据分析,找出不符合常规的数据点,从而发现潜在问题。在智能运维(AIOps)领域,指标异常检测是一项常规操作,具体来说就是要识别出数据中与正常模式偏离的异常点。
在实际运行指标中,正常数据往往呈现出一定规律。以服务器的 CPU 利用率为例,工作时间通常会维持在 30% 到 60% 之间,夜间一般保持在 10% 到 20%。如果 CPU 利用率突然飙升到 90% 以上,或者骤降到 0%,这就表明出现了异常,监控到的数据即为异常数据。异常检测的目的正是通过 AI 算法将这些异常数据点识别出来,最终实现事前预测,发现潜在的系统问题。
在指标异常检测中,动态极限和静态值是两种重要的参考标准。
静态值是一个固定阈值。例如,将 CPU 利用率的告警阈值设置为 80%,一旦超过 80% 就触发告警。这种方式简单易实现,适用于数据相对稳定的场景,如企业内部的办公服务器。但它的缺点也很明显:面对动态变化的数据场景(如电商大促期间,CPU 利用率会大幅上升),固定阈值容易产生大量误报,此时就不再适用。
