阿里周洋:混沌工程并不是大公司的专属
极客时间编辑部
讲述:杜力大小:1.46M时长:03:12
混沌工程其前身“混乱猴子(Chaos Monkey )”的灵感来自于 Netflix 几年前搬迁上云的过程,主要是为了解决该阶段暴露的问题。然而,目前不少企业的上云进程依旧缓慢,这种状态下是否还需要混沌工程?随着软件的测试流程越来越成熟且完善,是否有必要花费精力搞混沌工程?
针对上述问题,阿里巴巴高级技术专家周洋分享了自己的观点。
在《Chaos Engineering》一书中,是这样阐述混沌工程的:混沌工程是在分布式系统上进行实验的学科 , 目的是建立对系统抵御生产环境中失控条件的能力以及信心 。
乍听起来,有些晦涩难懂,如果简单概括,周洋对混沌工程的理解是如下四点:
一种拥抱失败的技术文化
一套抽象严谨的实践原则
一种主动防御的稳定性手段
一个高速发展的技术领域
从原理性角度来讲,周洋认为,实施混沌工程是分布式系统构建业务的必然选择。一方面架构的复杂性让系统负责人员很难自信承诺实际情况一定符合预期设计。另一方面组织对 ROI(投资回报率)的追求,又要求稳定性团队不能只是一个成本中心,所有措施要富有成效。
业内不少工程师倾向于将混沌工程比作疫苗,通过 " 接种疫苗 " 的方式,让系统具备抵挡 " 重大疾病 " 的能力。混沌工程的原则又可以概括为:建立一个围绕稳定状态行为的假说;多样化真实世界的事件;在生产环境中运行实验;持续自动化运行实验;最小化爆炸半径。
根据 Netflix 的实践历程,尝试破坏系统和服务很简单,但并不是全都可以有建设性、高效地发现问题。周洋认为,严格来讲,混沌工程与云的关系不大,但目前大部分企业都处于云迁移、云就绪或者云原生的不同阶段,上云已经成为无法阻挡的趋势,该阶段正是故障爆发的高发期,这些问题可能潜藏在系统中良久,只是一直没有被集中发现。
虽然上云集中变革的是基础设施层面,但需要某种手段验证上层技术平台是否可以在这个过程中不受影响并保持一致,混沌工程的引入可以让问题提前暴露、提前解决,让企业更全面地理解这些系统性固有现象,从而在分布式系统中实现更好的工程设计,不断提高系统弹性。
此外,周洋特别强调,混沌工程并不是大公司的专属,除非企业完全不在乎系统运行情况。相比较而言,金融、游戏、电商、航空航天等业务发展较快且对可用性具备高要求的领域更加需要混沌工程。如果本身的研发团队或者业务团队规模较小,同样需要混沌工程提高效率和产出比。
以上就是本文内容,我们会在下一篇文章中介绍阿里巴巴的混沌工程实践之路,并介绍混沌工程的一些开源工具,希望对你有用。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论