08 | AIOps:AI 与系统可靠性结合会产生哪些火花?
白园

你好,这里是极客头条。
说起 AIOps 你可能并不陌生,早在 2016 年 Gartner 就提出了这个术语,意思是算法驱动的 IT 运维。随着人工智能技术的发展和普及,AIOps 的含义已经扩展为 Artificial Intelligence for IT Operations,也就是用于 IT 运维的人工智能技术。
今天,我们邀请来白园老师,让他带我们盘点一下如何结合 AI 技术解决传统运维中的棘手问题。
白园老师拥有十余年 SRE 运维经验。 曾负责百度网盘、快手海外版服务稳定性工作,同时也是百度、快手两次央视春晚红包核心保障人员。十余年来经历过数百次故障处理和复盘,在监控、容量、预案、变更、数据可靠性、AIOps 等多个方向有自己独特的经历和见解。他还出品了专栏《SRE 实践:服务可靠性案例课》,感兴趣的同学可以深度学习。
以下是正文:
👇👇👇
对于监控、容量管理、变更控制、预案制定、数据备份和系统恢复等关键运维环节,我们该如何引入人工智能技术,激发创新,解决传统运维中那些棘手的问题呢?下面我们将从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测以及大模型应用等七个关键点进行解读。
故障发现与 AI 结合
首先在故障发现领域就面临着很多挑战,这些挑战往往超出了人力所能及的范围。这些问题可以概括为三类。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. AIOps是指用于IT运维的人工智能技术,应用包括故障发现和定位领域。 2. 在容量管理领域,AI与容量管理结合主要体现在流量预测、服务资源画像和扩容决策。 3. 变更与AI结合主要解决了系统上线变更过程中的高昂检查成本和关键信息遗漏风险的挑战。 4. 预案与AI结合可以形成智能决策过程,加快决策速度,提高决策的质量和效率。 5. AIOps在磁盘故障预测领域的应用能够提升数据的安全性和系统的可靠性。 6. 大模型让AI能够理解和解析人类的自然语言指令和查询,提升了运维工作的效率和协调性。
该试读文章来自《极客头条》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论