实践AIOps对企业及传统运维人员有何要求?
极客时间编辑部
讲述:初明明大小:4.64M时长:05:04
2016 年,Gartner 提出了利用 AI 技术的新一代 IT 运维,即 AIOps(智能运维),来解决未来企业可能遭遇的因 IT 故障而导致的业务中断。随后,AIOps 的概念得到了广泛普及和发展。据 Gartner 预测,到 2022 年,40% 的大中型企业将部署 AIOps 平台。那么,企业实践 AIOps 需要哪些前提条件呢?对此,InfoQ 采访了阿里巴巴计算平台事业部基础工程技术负责人、大数据资深技术专家柯旻(大舞),以下为柯旻的解答。
AIOps 的实践不是一蹴而就的,而是逐步发展的。在发展过程中,有人会质疑某些 AIOps 实践是传统运维 + 自动化策略。那么,AIOps 与传统运维、自动化运维的差异体现在哪里?
柯旻认为,主要体现在机器资源的规模越来越庞大以及业务组件越来越复杂带来的运维领域对数据化、智能化越来越高的要求。
随着公司业务的发展,底层资源也会逐步跟随业务发展快速增长。体量的变化会引发底层技术发生变革(例如分布式技术,存储计算分离等),整体的复杂性也会有质的变化。同时用户不再只是使用单产品,而是对整个平台层面、多产品的整体使用,所以运维复杂度也会呈几何式增长。此时,完全靠人力已经无法有效支撑(稳定性,效率,成本,安全)其业务发展了。所以对数据化、智能化的需求会越来越迫切。
在柯旻看来,自动化运维是实现 AIOps 的前提条件。
AIOps 本质上是通过机器学习算法以及相关的大数据技术智能 & 自动的解决日常运维方面的问题,这就涉及到对数据收集、传输、处理、在线 / 离线计算、AI 算法平台、工作流执行等一系列底层平台的功能依赖支持。所以 AIOps 一定是建立在一个比较高度完善的运维自动化基础上的,这样才能建立一整套底层数据处理平台。
而想要实现 AIOps,涉及的技术还是比较多的, 比较常见的技术包括大数据平台相关技术、算法、机器学习、场景感知、自动化平台的完善等,当然最主要的还是上层组织认可后在资源上有一定保障的持续投入。
所以,对于中小型企业来说,不适合直接实践 AIOps,相较而言,上云比实践 AIOps 更重要一些,因为 AIOps 需要的相关底层技术能力在云上都有一定的产品支持(云厂商已经把相关技术产品化掉)。对于中小企业来说,上云后不需要太多底层技术资源上的投入,而可以直接使用云上产品来做相关的智能化数据分析,同时减少了一些 IaaS、PaaS 层的要求,可以专注解决业务运维相关的运维问题,从而简化前期投入以及避免技术投资浪费(前期投入过多的底层技术资源,随着上云后这些技术投入很多将失去意义)。
还有一些企业会选择从传统运维转型到 AIOps,在柯旻看来,做出这种转变的主要动因还是业务发展带来的底层资源规模的变化以及企业业务复杂度的变化。那么,一个较为完整的 AIOps 实践应该具备哪些技术能力呢?
柯旻表示,抛开底层的自动化平台层面和数据收集处理的大数据平台方面的技术能力之外,AIOps 的核心主要集中在数据算法、机器学习技术方面。所以一个完整的 AIOps 实践需要多团队 & 技能协同,例如 AI 算法专家需要对比方、层次聚类、随机森林、时序数据分解、DNN、RNN 等算法方面的技能。运维平台研发专家需要负责整个运维产品的开发、数据分析决策后的闭环执行,还要具备工程研发以及产品化能力。同时 SRE 还需要了解架构规划、数据分析运营等相关多维度能力要求。
另外,如果企业转型 AIOps,对传统运维人员带来的冲击会非常大。比较突出的变化是,以前变更管控、配置管理、环境部署、日常操作、性能分析、故障定位等工作可能都会被智能分析、故障预警、运营分析、运维数据挖掘等取代。从核心上来说,越来越多的决策会交给机器算法来判断,机器会把绝大部分工作都做了,包括异常检测、根因分析 / 定位、异常预测等。不过,这个变化也不是突然发生的,而是慢慢逐步变化的。
运维人员需要做的改变是,把自身的经验能力抽象成自动化产品运维能力,把日常经验沉淀为平台数据积累。此外,做业务场景问题的提炼总结,升级自己的研发技能,并和算法工程师一起帮助机器决策变得越来越准确。
以上就是柯旻对企业实践 AIOps 的看法,也欢迎你在评论区留下你的观点。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论