云时代的运维面临怎样的挑战?
极客时间编辑部
讲述:丁婵大小:6.18M时长:04:30
运维是从 IT 诞生之初就一直存在的重要角色,只要有 IT 系统的地方,就有运维同学的身影和贡献。但随着云时代的到来,很多运维同学倍感焦虑。那么,云时代的运维面临怎样的挑战?又有什么解决方法呢?最近,阿里巴巴高级技术专家滕圣波发文给出了问题的答案,以下为重点内容。
云时代的运维是怎么样的?
首先,云上运维和传统的运维,操作目标是不一样的。传统的运维人员,需要熟练地手动操作来自众多厂家的计算、网络、存储等硬件设备,而云上的运维人员完全接触不到物理设备,取而代之的是云上的虚拟资源,例如云服务器、云盘、虚拟交换机等。云厂商将对资源的操作全部抽象成了软件定义的 API 接口,并用统一风格的 SDK、命令行进行封装,提供给运维人员使用。云厂商提供的图形化的运维控制台,也不过是 API 的封装而已。
其次,云上运维是高度简化的。传统的运维,需要学习来自众多“大厂”的认证,而在云上,虚拟专有网络产品将网络设备的管理和运维变得统一和简单,云上数据库产品实现了智能化的数据库管理,云服务器实现了动态的扩缩容和热迁移,这些都大幅降低了运维操作的门槛。云上的运维人员不再需要感知底层基础设施的细节,更不需要考取高难度的认证。即使是创业阶段的小企业也可以拥有和大企业同等的运维能力。
但是运维简化,并不意味着运维的重要性降低,相反,在云上,运维变得比以前更加重要了。
这主要有两个原因,一是云上运维的范畴比以往扩大了,二是云上企业对于稳定性的要求更高了。
从范畴上看,云上运维包含了从蓝图规划,到上云交付,再到云上管理的全过程。如果具体到流程和阶段,还包括设计选型、资源交付、系统交付、运维调优、扩缩容、资源运营、备份容灾,安全 & 审计等等。
从稳定性方面看,通常云厂商只负责基础设施的稳定,上层应用仍由企业开发人员自主开发,同时云上应用本身的稳定性也由企业自己的运维人员负责。如果具体来讲,企业运维人员需要负责持续发布过程中的蓝绿发布、灰度发布、分批发布、自动回滚等的实现,以及应用层的监控、事件告警体系的建设。
另外,云上基础设施的稳定性不能单纯依靠云厂商,也需要企业运维人员的相互配合。企业的云运维人员可以采用监控、负载均衡、多机热备、两地三中心等常用的高可用设计,在不是百分百可靠的基础设施上,搭建百分百可靠的应用。
总的来说,云上运维主要面临 4 点挑战:
运维排查问题的难度增加了;
云服务发出的消息、日志、事件等难以有效处理;
资源的膨胀带来了管理的复杂性;
云产品的频繁升级带来了运维的频繁被动变化。
如何调整才能适应云时代的运维工作呢?SRE 可能是答案。也就是说,运维人员可以转型升级为兼具开发技能和运维技能的站点稳定性工程师。不过,要真正升级为 SRE 并不容易。对此,滕圣波给出了 3 点建议,以供参考:
学习 DevOps 的实践,熟练掌握至少一种编程技能,从思想和技术上,保持工程师的先进性;
学习云厂商提供的各种自动化运维工具,并灵活运用,尝试帮助自己的企业搭建高效自动化运维平台;
积极参与开源和云厂商的生态建设,伴随运维生态一起成长,如果能产生出运维平台级的解决方案产品,广泛应用于整个行业,那么个人价值和商业价值都会得到体现。
以上就是今天的内容,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论