应用崩溃的两种原因及应对工具
极客时间编辑部
讲述:丁婵大小:6.19M时长:04:30
来源:阿里技术
近期,受疫情影响,线上流量激增,很多线上应用都面临着高流量和突发流量的业务冲击,甚至频繁崩溃。对此,阿里巴巴解决方案架构师燕顺分析了两点原因,并分享了阿里巴巴在应对高并发、高流量业务时用到的几款工具,以供参考。
首先,应用崩溃基本出于两种原因,其一是因为非常复杂的服务端。以一个较为成熟的云上架构为例,阿里云构建一个在线服务可以用到的云计算基础、安全和企业应用这三个分类的云产品数量就达到几乎 200 款。而从客户端(App/PC)到达服务端会涉及到的关键节点就有 CDN、动态加速、高防、应用防火墙、4/7 层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性,其中任何一个节点出问题都会导致服务不可用,给最终用户“应用崩了”的感觉。同样的问题在专有云、混合云和自建 IDC 也有。
如何能有效的全面检验服务端吞吐能力、发现所有问题甚至是做好容量规划,具备对峰值的流控调度能力是所有企业都需要思考和应对的。
其二是因为没有提前规划的服务能力。如果应用没有对自己的服务能力进行提前规划,不具备线上应急措施如弹性扩容、线上防护、熔断降级等,在高流量业务突发时,就很难保证核心接口稳定地对外服务。一旦应用“崩了”,很多企业无法采取正确的手段,匆匆扩容非但不能解决问题,还会带来更多不可预期的问题,导致应用崩溃问题进一步恶化。
除去因问题发现、容量规划、流控和熔断降级引起的“崩”外,对于运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具等,如果没有足够的演练和验证方案,一样会在关键时刻让你的应用崩溃。
下面是阿里巴巴工程师在高可用架构建设实践中会用到的几款工具。
1. 应用高可用服务 AHAS
这是一款专注于提高应用高可用能力的云工具产品,提供应用架构自动探测、故障注入式高可用能力评测和一键流控降级等功能,可以快速低成本地提升应用可用性。
2. 性能测试 PTS
这是面向所有技术背景人员的云化测试工具。有别于传统工具的繁复,PTS 以互联网化的交互,提供性能测试、API 调试和监测等多种能力。自研和适配开源的功能都可以轻松模拟任意体量的用户访问业务的场景,而且任务随时发起,免去了繁琐的搭建和维护成本。此外,它能紧密结合监控、流控等产品提供一站式高可用能力,高效检验和管理业务性能。
3. 智能顾问 Advisor
这款工具可以全方位地提供云资源、应用架构、业务性能及安全方面的诊断和优化建议。现在,越来越多的阿里云云原生客户可以通过 Advisor 便捷地享受专业的 TAM 基 础服务,更好地用好云。
这是一款遵循混沌工程实验原理,建立在阿里巴巴近十年故障测试和演练实践基础上,并结合了集团各业务的最佳创意和实践的混沌工程工具。它提供了丰富的故障场景实现,帮助分布式系统提升容错性和可恢复性。
它以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度来帮助你保护服务的稳定性。
以上就是今天的内容,希望能给你带来参考价值。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论