Gremlin发布“恢复即服务” SaaS平台
极客时间编辑部
讲述:丁婵大小:1.17M时长:02:33
近日,Gremlin 公司发布了 Gremlin,一种基于 SaaS 的“恢复能力即服务”(Resilience as a Service)平台。
Gremlin 支持企业通过“按需破坏系统”开展混沌实验,这样有助于在应用发生停机故障前预防问题的发生。它使得企业可以在所管理的基础设施中注入一些受控的资源、网络和状态故障,以便工程师查看在此类故障条件下系统的运作行为。它还提供了一个“撤销”按钮,一旦出现问题即可自动清除注入故障。
自去年以来,混沌工程和恢复能力测试的理念日益流行,Netflix 等先驱对此已经摇旗呐喊了相当长的时间。Netflix 的 Chaos Monkey,以及相关的 Simian Army 系列工具,已经成为相当主流的工具。此外,最近也有不少会议演讲是以混沌为主题。
但是要使用混沌技术,通常需要高层级的基础设施和操作技能、实验的设计和执行能力,以及一些可用的资源,并且由于混沌工程不能破坏生产环境,因此还需要以受控方式手动编排故障场景。
Gremlin 平台提供了一种基于 Web 的 GUI,用于在已经安装 Gremlin 守护进程的计算设备上执行和管理混沌实验。对于那些在容器中运行应用的企业,Gremlin 还提供了用于 Docker 的安装选项,并附带对 Kubernetes 的支持。
Gremlin 的 Web UI 支持以受控的方式运行,发布一系列针对基础设施的故障“攻击”。攻击可以是即席的(ad-hoc)、程序化的或是按计划执行的。攻击也可以被安排在特定日期和特定的时间窗口内执行,并且可以设置计划生成的最大攻击次数。Gremlin 还提供了一个“撤消”按钮,一旦出现问题,会自动清除攻击测试。安全是“重新建立的”,其中使用了最低的权限、多重身份验证、审计和基于角色的访问控制。
Gremlin 的核心价值主张在于,允许工程师启动、控制和观察系统在攻击可引发的各种故障情况下的行为。它并不提供自动化金丝雀测试,也不提供自动故障检测,它所提供的是一组全面的故障原语,可用于设计实验,并观察故障在一个复杂分布式系统中的影响情况。
Gremlin 不需要修改部署流水线,也不需要修改网络基础架构,因此更便于在一系列的基础架构和部署范例中使用,例如裸机、云 /IaaS 或容器等。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论