AIOps 实战课

张云河

资深系统架构师

29 人已学习

新⼈⾸单¥39

课程目录

已更新 7 讲/共 17 讲

课程介绍 (1讲)



课程介绍｜传统运维的挑战及AIOps核心价值与场景

时长 28:26

实验一：基于机器学习的指标异常检测 (6讲)



04｜代码实战（二）：模型训练、预测与评估

时长 16:35

时长 23:07

时长 22:13

时长 24:51

时长 22:11

06｜代码实战（四）：定义主函数，并验收实验结果

时长 15:16



AIOps 实战课



留言





沉浸
阅读





手机端



回顶部

当前播放: 01｜实验一概览：理论基础与实验环境准备

00:00 / 00:00

字幕已开启

高清

高清

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

付费课程，可试看



课程介绍｜传统运维的挑战及AIOps核心价值与场景

04｜代码实战（二）：模型训练、预测与评估

02｜指标异常检测中用到的数据

03｜代码实战（一）：数据加载与预处理

01｜实验一概览：理论基础与实验环境准备

05｜代码实战（三）：结果可视化

06｜代码实战（四）：定义主函数，并验收实验结果



本节摘要

以下文稿由 AI 整理，仅供参考。

基于机器学习的指标异常检测：从理论到实验环境搭建

一、异常检测的基本概念

异常检测是机器学习中指标异常检测的基础，其核心目标是识别数据中与正常模式偏离的现象。通过数据分析，找出不符合常规的数据点，从而发现潜在问题。在智能运维（AIOps）领域，指标异常检测是一项常规操作，具体来说就是要识别出数据中与正常模式偏离的异常点。

在实际运行指标中，正常数据往往呈现出一定规律。以服务器的 CPU 利用率为例，工作时间通常会维持在 30% 到 60% 之间，夜间一般保持在 10% 到 20%。如果 CPU 利用率突然飙升到 90% 以上，或者骤降到 0%，这就表明出现了异常，监控到的数据即为异常数据。异常检测的目的正是通过 AI 算法将这些异常数据点识别出来，最终实现事前预测，发现潜在的系统问题。

二、动态极限与静态值

在指标异常检测中，动态极限和静态值是两种重要的参考标准。

静态值是一个固定阈值。例如，将 CPU 利用率的告警阈值设置为 80%，一旦超过 80% 就触发告警。这种方式简单易实现，适用于数据相对稳定的场景，如企业内部的办公服务器。但它的缺点也很明显：面对动态变化的数据场景（如电商大促期间，CPU 利用率会大幅上升），固定阈值容易产生大量误报，此时就不再适用。

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论