10|常见误区及解决方法(上):多重检验问题和学习效应
多重检验问题(Multiple Testing Problem)
- 深入了解
- 翻译
- 解释
- 总结
本文深入探讨了A/B测试中常见的多重检验问题和学习效应,并提出了解决方法。针对多重检验问题,作者首先解释了其成因,指出随着检验次数增加,第一类错误率α会显著升高,提出了降低α作为一种解决方法。文章列举了多重检验问题的四种形式,并介绍了两种调整方法:保持每个检验的P值不变,调整α;保持α不变,调整每个检验的P值。针对学习效应,文章详细阐述了其表现形式和检测方法,包括表征实验组指标随时间变化和比较实验组和对照组中的新用户。总的来说,本文为读者提供了解决多重检验问题和学习效应的方法,使其能更好地理解和应对A/B测试中的相关问题。
《A/B 测试从 0 到 1》,新⼈⾸单¥59
全部留言(11)
- 最新
- 精选
- 四月. 🕊“第四种形式,当 A/B 测试在进行过程中,你不断去查看实验结果时。” 对于第四种形式的多重检验错误,在日常实现的时候我们会每天给出昨天测试结果,累加到之前的结果上进行计算,这样p值的不准确是只是因为现在没到样本量导致的现在这个p值不准,还是会影响到最后达到样本量的p值也不准确呢?
作者回复: 你好,“累加到之前的结果上进行计算”具体指的是什么呢?最准确的是到达样本量之后一次性计算。
2021-01-0754 - 安和请问对于A/B/n 测试类的多重检验问题,若每个实验组都有个单独的对照组的情况和共用对照组的情况,都有相同的多重检验问题吗?
作者回复: 你好,“每个实验组都有个单独的对照组”这种情况如果是有相同的指标或假设的话那还是会有多重检验问题的。
2021-01-022 - 西西同样对多重检验问题有疑问,希望能够增加一些案例帮助说明。 开头的举例:至少出现一个第一类错误的概率是 64% >> 5%,所以多重检验问题的关键是:至少出现一次第一类错误就得到整体是**显著差异**的结论? 如果多次比较,每一次比较的结果都单独判断;或者如果样本量没到,没到之前只是看看,但并不影响得到最终结论,是不是就不是多重检验问题了?
作者回复: 好问题,对于你说的第一种情况:‘如果多次比较,每一次比较的结果都单独判断’,我估计其实最终还是作为一个整体来得出结论嘛,又因为这些比较/test是同时发生的,其实还是会存在多重检验问题; 第二种情况你如果只是之前看看,但是不把这些结果带到最终的判断去,就没有关系。
2021-08-131 - 贤者时间关于多重检验我有两个观点想跟老师交流一下: 1. 只要进行了多个AB测试(而不论是不是由文中提到的四种产生形式)就必然产生多重检验的问题,因为计算FWER的公式同样适用。举个例子,当公司有20个AB测试场景(对应着20个目标/假设),其中出现错误的概率就很大了。而文中提到的解决办法事实上针对的是同一个目标或者同一个对照组的情景。 2. 基于1,我想到一个解决思路:条件允许的话,可以做相同的AB测试,每个测试犯弃真错误的概率是α,N个相同测试犯错的概率就是α的N次方了。可以极大减小犯错概率。而且适用于任何场景。不知老师怎么看?
作者回复: 你好,1. 对于你的第一个观点我想用维基百科里的话来回答:Note that of course the multiple comparisons problem arises not in every situation where several hypotheses are empirically tested, be that sequentially or in parallel (concurrent); roughly speaking, the multiple comparisons problem arises whenever multiple hypotheses are tested on the same dataset (or datasets that are not independent) or whenever one and the same hypothesis is tested in several datasets. 多重检验其实并不是会在任何时候都会出现的,一般来说是出现在多个假设在相同或者相关联的数据上检测或者相同的建设在不同的数据集上检测;2. 这里你得出的α的N次方其实是N个相同的A/B测试同时犯错的概率,如果N次结果都一致的话那当然可行,不过如果N次结果不一致的话那就要根据具体情况重新计算概率啦,不过总体来说,实验结果的可重复性越高,确实也说明了实验结果的可靠性。
2020-12-2921 - 那时刻老师提到的误区,感觉我们都曾遇到过,看着很有感触。 多重检验里,我们想要看 A/B 测试中的变化对于各个国家的具体影响时,就会以国家为维度来做细分的分析。如果采用调整α的方法Bonferroni 校正,那么n的取值是什么?我的理解是,一般取top n的国家来看数据,n是top n的值。另外一种BH方法,设置不同的p值,是按照国家设置吗?
作者回复: 你好,如果用Bonferroni 校正的话n的取值就等于你做细分分析的维度,比如10个国家n就等于10;对于BH法的话,你的情景就是p值就是按照国家来设置的。
2020-12-291 - 李哲多重检验错误的发生情况还是没有搞清楚。如果ab测试有多个实验组测试不同的指标,那么最终结果我只取某个指标对应的实验组和对照组进行分析,那还会存在多重检验的问题嘛
作者回复: 当你取某个指标对应的实验组和对照组进行比较分析该特定指标时不会出现多重检验问题,因为你只是进行1V1的比较,但是你前面提到了多个实验组和不同的指标,也就是说你会进行多个1V1的比较,这时就会出现多重检验问题。
2021-07-302 - Geek_2ef9a5老师您好,关于多个指标的话也需要做p值的调整吗?比如我们主要研究转化率有没有因为某个改变而导致两组差异,次要要评价了比如点击率有没有差异。很多时候我都是直接使用0.05,去评价每个指标2021-09-061
- 崇世轩人真正消除学习效应,延长多长时间怎么判断2022-09-19归属地:辽宁
- 9老师,如果我的ab测试会看总体的显著性,还会在多个维度上看显著性,比如在手机系统(ios android)分别看显著性,还会分别看TOP5国家的显著性情况。如果这样就会引起多重检验的问题了。 我想用Bonferroni 校正。 调整α时我的n,是考虑一共做了多少个实验(我一共做了8次显著性检验(总体一次,手机系统2次,国家5次),n=8),还是按照维度考虑呢,也就是做总体的显著性检验时 就用α;做手机系统的检验时 n=2; 做国家的检验时,n=5。2022-07-121
- Geek_559df4老师,多重检验当样本量不够时,采用流量正交的方式有没有相关参考资料2021-12-06