A/B 测试从 0 到 1
张博伟
FLAG 资深数据科学家
9786 人已学习
新⼈⾸单¥59
登录后,你可以任选2讲全文学习
课程目录
已完结/共 20 讲
开篇词 (1讲)
A/B 测试从 0 到 1
15
15
1.0x
00:00/00:00
登录|注册

10|常见误区及解决方法(上):多重检验问题和学习效应

你好,我是博伟。
上节课,我们讲了一个在做 A/B 测试时普遍存在的一个问题,那么接下来,我就根据自己这些年做 A/B 测试的经验,精选了一些在实际业务中会经常遭遇的误区,主要是多重检验问题、学习效应、辛普森悖论和实验 / 对照组的独立性这四大误区。
这四个误区,其实也可以被看作在实际业务中经常出现的几个问题。不过我在题目中之所以强调说这是误区,是因为你很可能会在这些问题的理解上产生一些偏差。
所以接下来我在讲这两节课时,会按照“问题阐述—问题解析—总结引申—课后思考”的范式来给你讲。也就是说,我会先带你深入剖析问题的成因,然后再举例分析这些问题在实践中的表现形式,最后给出对应的解决方法。
毕竟,在搞清楚问题原理的前提下,再学习问题的表现形式和解决方法,不仅你的学习效果会事半功倍,而且在实际应用时,你也能根据变化多端的业务场景,随机应变,灵活运用。

多重检验问题(Multiple Testing Problem)

多重检验问题,又叫多重测试问题或多重比较问题(Multiple Comparison Problem),指的是当同时比较多个检验时,第一类错误率α就会增大,而结果的准确性就会受到影响这个问题。我在基础篇讲 A/B 测试流程时就多次提到过它,比如第 4 节课讲 OEC 的好处时,还有第 7 节课讲什么时间才能查看测试结果时。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了A/B测试中常见的多重检验问题和学习效应,并提出了解决方法。针对多重检验问题,作者首先解释了其成因,指出随着检验次数增加,第一类错误率α会显著升高,提出了降低α作为一种解决方法。文章列举了多重检验问题的四种形式,并介绍了两种调整方法:保持每个检验的P值不变,调整α;保持α不变,调整每个检验的P值。针对学习效应,文章详细阐述了其表现形式和检测方法,包括表征实验组指标随时间变化和比较实验组和对照组中的新用户。总的来说,本文为读者提供了解决多重检验问题和学习效应的方法,使其能更好地理解和应对A/B测试中的相关问题。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《A/B 测试从 0 到 1》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • 四月. 🕊
    “第四种形式,当 A/B 测试在进行过程中,你不断去查看实验结果时。” 对于第四种形式的多重检验错误,在日常实现的时候我们会每天给出昨天测试结果,累加到之前的结果上进行计算,这样p值的不准确是只是因为现在没到样本量导致的现在这个p值不准,还是会影响到最后达到样本量的p值也不准确呢?

    作者回复: 你好,“累加到之前的结果上进行计算”具体指的是什么呢?最准确的是到达样本量之后一次性计算。

    2021-01-07
    5
    4
  • 安和
    请问对于A/B/n 测试类的多重检验问题,若每个实验组都有个单独的对照组的情况和共用对照组的情况,都有相同的多重检验问题吗?

    作者回复: 你好,“每个实验组都有个单独的对照组”这种情况如果是有相同的指标或假设的话那还是会有多重检验问题的。

    2021-01-02
    2
  • 西西
    同样对多重检验问题有疑问,希望能够增加一些案例帮助说明。 开头的举例:至少出现一个第一类错误的概率是 64% >> 5%,所以多重检验问题的关键是:至少出现一次第一类错误就得到整体是**显著差异**的结论? 如果多次比较,每一次比较的结果都单独判断;或者如果样本量没到,没到之前只是看看,但并不影响得到最终结论,是不是就不是多重检验问题了?

    作者回复: 好问题,对于你说的第一种情况:‘如果多次比较,每一次比较的结果都单独判断’,我估计其实最终还是作为一个整体来得出结论嘛,又因为这些比较/test是同时发生的,其实还是会存在多重检验问题; 第二种情况你如果只是之前看看,但是不把这些结果带到最终的判断去,就没有关系。

    2021-08-13
    1
  • 贤者时间
    关于多重检验我有两个观点想跟老师交流一下: 1. 只要进行了多个AB测试(而不论是不是由文中提到的四种产生形式)就必然产生多重检验的问题,因为计算FWER的公式同样适用。举个例子,当公司有20个AB测试场景(对应着20个目标/假设),其中出现错误的概率就很大了。而文中提到的解决办法事实上针对的是同一个目标或者同一个对照组的情景。 2. 基于1,我想到一个解决思路:条件允许的话,可以做相同的AB测试,每个测试犯弃真错误的概率是α,N个相同测试犯错的概率就是α的N次方了。可以极大减小犯错概率。而且适用于任何场景。不知老师怎么看?

    作者回复: 你好,1. 对于你的第一个观点我想用维基百科里的话来回答:Note that of course the multiple comparisons problem arises not in every situation where several hypotheses are empirically tested, be that sequentially or in parallel (concurrent); roughly speaking, the multiple comparisons problem arises whenever multiple hypotheses are tested on the same dataset (or datasets that are not independent) or whenever one and the same hypothesis is tested in several datasets. 多重检验其实并不是会在任何时候都会出现的,一般来说是出现在多个假设在相同或者相关联的数据上检测或者相同的建设在不同的数据集上检测;2. 这里你得出的α的N次方其实是N个相同的A/B测试同时犯错的概率,如果N次结果都一致的话那当然可行,不过如果N次结果不一致的话那就要根据具体情况重新计算概率啦,不过总体来说,实验结果的可重复性越高,确实也说明了实验结果的可靠性。

    2020-12-29
    2
    1
  • 那时刻
    老师提到的误区,感觉我们都曾遇到过,看着很有感触。 多重检验里,我们想要看 A/B 测试中的变化对于各个国家的具体影响时,就会以国家为维度来做细分的分析。如果采用调整α的方法Bonferroni 校正,那么n的取值是什么?我的理解是,一般取top n的国家来看数据,n是top n的值。另外一种BH方法,设置不同的p值,是按照国家设置吗?

    作者回复: 你好,如果用Bonferroni 校正的话n的取值就等于你做细分分析的维度,比如10个国家n就等于10;对于BH法的话,你的情景就是p值就是按照国家来设置的。

    2020-12-29
    1
  • 李哲
    多重检验错误的发生情况还是没有搞清楚。如果ab测试有多个实验组测试不同的指标,那么最终结果我只取某个指标对应的实验组和对照组进行分析,那还会存在多重检验的问题嘛

    作者回复: 当你取某个指标对应的实验组和对照组进行比较分析该特定指标时不会出现多重检验问题,因为你只是进行1V1的比较,但是你前面提到了多个实验组和不同的指标,也就是说你会进行多个1V1的比较,这时就会出现多重检验问题。

    2021-07-30
    2
  • Geek_2ef9a5
    老师您好,关于多个指标的话也需要做p值的调整吗?比如我们主要研究转化率有没有因为某个改变而导致两组差异,次要要评价了比如点击率有没有差异。很多时候我都是直接使用0.05,去评价每个指标
    2021-09-06
    1
  • 崇世轩人
    真正消除学习效应,延长多长时间怎么判断
    2022-09-19归属地:辽宁
  • 9
    老师,如果我的ab测试会看总体的显著性,还会在多个维度上看显著性,比如在手机系统(ios android)分别看显著性,还会分别看TOP5国家的显著性情况。如果这样就会引起多重检验的问题了。 我想用Bonferroni 校正。 调整α时我的n,是考虑一共做了多少个实验(我一共做了8次显著性检验(总体一次,手机系统2次,国家5次),n=8),还是按照维度考虑呢,也就是做总体的显著性检验时 就用α;做手机系统的检验时 n=2; 做国家的检验时,n=5。
    2022-07-12
    1
  • Geek_559df4
    老师,多重检验当样本量不够时,采用流量正交的方式有没有相关参考资料
    2021-12-06
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部