09 |测试结果不显著,要怎么改善?
为什么会出现“实验结果不显著”?
- 深入了解
- 翻译
- 解释
- 总结
本文总结了A/B测试中遇到测试结果不显著的问题,并提出了相应的解决方法。作者首先分析了实验结果不显著的原因,指出可能是因为变化确实没有效果,或者变化虽然有效但程度很小,导致测试的灵敏度不足。针对这两种情况,作者提出了提高Power的方法,包括增加样本量和减小方差。在增加样本量方面,作者介绍了延长测试时间、增加测试使用流量在总流量中的占比以及多个测试共用同一个对照组等方法。而在减小方差方面,作者提到了减小指标的方差、倾向评分匹配以及在触发阶段计算指标等方法。此外,文章还介绍了减小指标的方差的两种方式,倾向评分匹配的原理和实施方法,以及在触发阶段计算指标的重要性。通过这些方法,读者可以更好地理解和应用A/B测试,提高测试结果的可靠性和实用性。文章最后强调了做出能真正提升业务的改变并不容易,但每次实验都能带来新的知识和个人技能上的成长,这些都是非常宝贵的。
《A/B 测试从 0 到 1》,新⼈⾸单¥59
全部留言(12)
- 最新
- 精选
- Geek_0e2f02老师你好,我对分配流量这里有些疑问: 假设我们的新版app同时要上线3个功能,同时我们每天有10万流量,如果每个功能分开测,功能A实验组对照组都需要1万样本量,功能B需要2万样本量,功能C需要3万样本量。 1、首先,我们如何确定实验对象,是我们在我们的用户池里就随机抽样或者以某种方式先选出我们的实验对象,还是直接从我们每天的流量里随机分出一部分用户用于实验 2、假设我们的实验需要进行好几天,如果我们事先根据用户ID设定好他属于实验组还是对照组,那这个用户有可能会出现好几次,这样需要不需要去重,如果事先用户不设定好属于哪一组,那么他有可能同时在实验组和对照组,这种情况怎么处理呢 3、假设我们事先给用户设定好实验组或者对照组,假设我们的实验需要10万样本量,我们实验之前给对实验组、照组各选了20万用户,我们预计是够了,但是经过我们的一段时间的实验,发现怎么也达不到我们的需要的样本量,这20万用户中,可能只来了8万,还差2万,这种情况如何处理呢 4、我们同时上线3个功能,您上边说的是我们可以只有1个对照组,但是我举的例子是,每个实验需要的样本量是不一样的,这种情况下我们的实验应该如何设计呢,以需要最大的样本量3万为基础做实验吗,A/B/C功能都用3万样本。 5、最后,您讲的像这样多个功能一起上,需要一个对照组,3个实验组,还是相当于只是减少了对照组,实验组的数量并没有减少,我的疑惑是,能否实验组也变为一个,同时测这三个功能 谢谢老师,不知道我是否表述清楚.......
作者回复: 你好, 我来一个个回答: 1. 这个要看是要测试什么功能,如果可以事先确定实验对象的话那么可以事先选出,我们对测试的功能有自主权(比如给用户发送推送,一般发送前是会确定好用户的),有的功能没有办法事先确定实验对象,因为你不确定用户会不会用要测试的功能,用户对测试的功能有自主权,这时候只能从每天流量中随机选取;2.这个可以参考第5节课如何选取实验单位,结合测试的具体内容具体分析,有些实验需要一个用户只在一个组(比如为了保持用户体验),有的实验则不需要,那么这时候一个用户可以既在实验组又可以在对照组; 3. 这里的话应该是个样本量不足的问题,那么最简单的方法就是延长时间是样本量达标; 4. 这里如果要用A/B/n的话实验组可以分别为1万,2万和3万,共用的对照组需要3万,因为要同时满足3个实验; 5. 实验组不能减少,因为如果只用一个实验组同时测3个功能的话,即使指标有显著变化,我们并不能确定到底是哪一个指标的作用,无法具体归因,所以每一个变化都要一个新的实验组。
2021-01-0910 - MarrborPSM相关资料可以share一下吗?希望进一步了解
作者回复: 这些资料可以参考下: https://www.linkedin.com/pulse/causal-inference-propensity-score-matching-anh-dang/ https://github.com/ntstevens/A-B-Testing-and-Beyond/issues/1#issuecomment-327911659
2021-08-051 - Kennedy老师你好,为何Power 和 方差成反比呢? 综合方差和样本量成正比,样本量和Power成正比。
作者回复: 这个关键是看三者的关系,因为如果三者是遵循某种关系的话,这里就不能只看递推法则。 举个例子:长方形的面积 = 长*宽, 当面积一定时,长和宽成反比; 当宽一定时,面积和长成正比, 当长一定时,面积和宽也成正比。 这里power和方差就相当于长和宽,样本量就相当于长方形的面积。
2021-08-302 - 豆丁儿老师,提问1:这里只讲到了提高样本量来提高power,是假定第一类错误不变吗?计算样本量的公式中,明明两类错误都是会影响的呀
作者回复: 你好! 对的,当我们说一个变量(自变量)对另一个变量(因变量)的影响时,都是假定等式中的其他变量不变的(虽然这个是理想情况,因为现实中的话可能会存在其他变量会随着自变量变化,但是我这里讲的都是定性分析,并不是定量分析)
2021-04-132 - Pink泡芙_xue 您好,有什么办法可以看到或者打开文章中链接的内容吗。给个链接获取地址也行。想看下psm原理
编辑回复: 已经私聊发给你了蛤
2021-04-022 - 李哲有以下疑问哇: 1.我们怎样判断测试结果不显著是因为两指标确实在统计意义上相同,还是因为测试的power不足。如果无法判断的话岂不是每个检测的结果我们都要按照本文的流程做相应的复盘; 2.如果是power不足,我们做优化的话,就是重新做一个ab测试吧?2021-09-2722
- Geek_9dceb7老师好,请问对于概率型指标,如何去除离群值2022-04-271
- 续费专用老是您好,为啥不先取出符合触发条件的用户再做分流呢?这样实验组和对照组的相似度会更高一些吧?2023-11-21归属地:北京
- Anymorecuped,分层抽样等都是可以用来减少指标方差的方法,提高灵敏度的同时,可以降低样本量的需求2023-11-13归属地:广东
- Renee 🐙老师我一直以为variance是指实验指标的variance,PSM只是将control和treatment两组之间的特征分布的差异减小了,按理说并没有减小实验指标的variance,请问能不能解答一下我的疑惑2023-10-30归属地:美国