18|概述:AIOps 涉及哪些领域和方向?
白园
你好,我是白园。从今天开始我们进入 AIOps 篇。
Gartner 在 2016 年首次提出了 AIOps 这一术语,它是 Algorithmic IT Operations 的缩写,意指算法驱动的 IT 运维。随着人工智能技术的发展和普及,AIOps 的含义已经扩展为 Artificial Intelligence for IT Operations,也就是用于 IT 运维的人工智能技术。
前面我们已经全面探讨了监控、容量管理、变更控制、预案制定、数据备份和系统恢复等关键运维环节。这一章我们就来看一下如何将这些环节与人工智能技术相结合,激发创新,并解决传统运维中那些棘手的问题。这节课我们将从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测以及大模型应用等七个关键点进行解读。
故障发现与 AI 结合
首先在故障发现领域就面临着很多挑战,这些挑战往往超出了人力所能及的范围。这些问题可以概括为三类。
监控项庞大,随着服务复杂性的增加,监控项的数量急剧上升,带来了首个挑战——在庞大的数据流中准确识别异常模式。以不同运营商和地区的流量数据为例,细分后可能产生数百条数据曲线,每条都需要定制的相应的监控策略。手动配置这些规则不仅任务繁重,而且在人力成本上也显得不经济。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. AIOps是指Algorithmic IT Operations,现已扩展为Artificial Intelligence for IT Operations,用于IT运维的人工智能技术。 2. AIOps在故障发现领域的研究方向包括单指标异常检测、多指标联合分析和报警优化,以解决监控项庞大、微小变化检测难题和单独依赖指标难以揭示问题本质等挑战。 3. AIOps在故障定位领域的研究方向包括多维定位、因果关系判断和重复故障定位,以解决故障成因复杂、调用链路深度和复杂性以及导致故障的多样性等挑战。 4. AIOps在容量管理与人工智能的结合主要应用于流量预测、服务资源画像和扩容决策,以帮助提前规划资源、精确进行资源分配和优化,以及确定需要的资源规模。 5. 智能检测技术的应用能够自动分析服务上线对上下游服务的潜在影响,并全面监测相关指标,提升变更拦截的精确度和效率。 6. AI与预案管理相结合能够加快决策速度,提高决策的质量和效率,解决工程师在高压环境下迅速做出准确决策的挑战。 7. AIOps在磁盘故障预测领域的应用能够提前识别和预测磁盘故障,显著提升数据的安全性和系统的可靠性,减少因数据丢失或系统中断带来的风险。 8. 大模型让AI能够理解和解析人类的自然语言指令和查询,提升了运维工作的效率和协调性,促进了人与AI之间的协作,为运维领域带来了革命性的变化。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论