23|AIOps智能决策:给故障处理安装一个大脑
白园

你好,我是白园。
今天,我想跟你讨论 AIOps 中最复杂的场景——如何决策。前面所有的场景我们都是在讨论如何去预测,包括问题发现、容量预测、故障定位,但是没有告诉你应该怎么办。今天我们就看看怎么能把预案列表和决策建议结合起来构建一个运维大脑。
之前我们讨论了如何设计和执行应急预案,但我们并没有深入探讨在哪种情况下选择执行哪个预案最为合适。目前,在面对故障的时候,我们选择执行特定预案通常需要人工进行决策和判断。这节课我们就来展示如何利用智能技术来实现这一决策过程。
为什么需要一个大脑?
在服务可靠性领域,目前依赖人工来协调监控、容量规划、预案制定和变更管理等关键环节,个人经验直接影响故障处理的效率。这正是我们所说的运维大脑。我们可以把监控比作眼睛,发现问题;预案比作四肢,解决问题。但还需要一个中央系统来整合这些功能,进行分析和决策。
从历史的重大故障案例中我们发现,虽然重要的故障往往难以预测,但决策过程是不能缺少的。特别是在处理关键故障时,现场决策能力成为故障恢复的主要制约因素。因此一个快速而准确的决策往往能起到最终决定性的作用。
但人的经验、临场判断能力比较是有限的,因此需要 AI 来辅助我们做出判断和决策。你可以看一下示意图,大脑的作用在于对初步问题分析和决策,告诉人员应该执行哪个预案,什么时候执行,执行带来的后果是什么。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. AIOps中的决策过程是关键环节,需要构建一个运维大脑来整合监控、容量规划、预案制定和变更管理等功能,以提高故障处理效率。 2. 决策过程的演进经历了从简单的是否切流到复杂的最优化问题,需要根据实际情况和历史案例进行决策,将复杂问题拆分成简单问题进行判断。 3. 决策中常见的算法包括构建决策树、回归预测和线性规划,需要根据项目阶段和数据积累情况选择合适的算法来进行决策逻辑的构建。 4. 决策树不仅限于机器学习算法,也可以使用if-else逻辑构建,但随着项目发展需要考虑利用机器学习算法的能力进行更深入的训练和模式抽象。 5. 线性回归和线性规划算法在解决容量水位和流量迁移等问题时具有实际应用价值,可以帮助优化决策过程。 6. 在处理多地区止损和切流问题时,可以采用线性规划或贪心算法来实现最优化决策,根据地区的重要性进行优先级排序。 7. 运维大脑的作用在于对初步问题分析和决策,告诉人员应该执行哪个预案,什么时候执行,执行带来的后果是什么。 8. 决策过程需要从业务视角出发选择最优解决方案,并根据实际案例进行分析,避免想当然的决策。 9. 决策过程的复杂问题需要拆分成简单问题进行判断,尽可能将复杂问题变成简单问题,以提高决策效率.
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论