• 林林总总0107
    2021-11-10
    1.CPU压到90%了,压力还在高位运行,后面系统直接异常了。复盘发现运维告警策略针对这个系统设置的有问题,需要连续10分钟超过90%才告警,我们扯皮就扯运维监控没做好,产品线自己没盯好,产品线就说是压测压的,只管压不管监控O(∩_∩)O~,其实压测这边事务成功率在后面降下来了,也有成功率告警推出来,但是已经晚了。最后,虽然是一次扯皮,但都有改进的点。

    作者回复: 锅甩的不错哟。 只是这个问题,我觉得也容易处理。就是个数据实时性的问题,首先线上的压测呢,数据一定要是实时的,工具的成功率告警得实时报出来,运维的告警也得实时报出来。 确实两边都得改进。

    共 2 条评论
    5
  • Dyson
    2021-11-17
    高老师,您提到需要预热,是不是就是场景执时采取梯度加压的方式? "最简单直接的思路就是把容量场景中涉及到的业务都提前预压测一遍",这句话在实际落地时具体应该怎么做?

    作者回复: 梯度加压只是场景执行时的一种策略。预热是对后端数据加载、资源分配的角度来说的。 预热可以产用梯度加压的方式来做。

    
    1