A/B 测试从 0 到 1
张博伟
FLAG 资深数据科学家
9786 人已学习
新⼈⾸单¥59
登录后,你可以任选2讲全文学习
课程目录
已完结/共 20 讲
开篇词 (1讲)
A/B 测试从 0 到 1
15
15
1.0x
00:00/00:00
登录|注册

11 | 常见误区及解决方法(下):辛普森悖论和实验组/对照组的独立性

你好,我是博伟。这节课,我们继续来学习 A/B 测试中的常见误区和解决方法。
今天我们要解决的问题,是辛普森悖论和实验 / 对照组的独立性。这两个问题在 A/B 测试的实践中也是常客。
对于辛普森悖论呢,由于遇到的次数太多,以至于我每次做 A/B 测试结果的细分分析时,都要先检查该细分领域在两组的比例是否符合两组整体的比例,来确保实验结果的准确。
对于实验 / 对照组独立性被破坏这个问题,我在早期做营销预算固定的 A/B 测试时也经常遇到,但是它的表现形式其实非常多变,各个业务类型中都有它的身影,所以就需要有针对性地进行分析。
听了我的经历,你可能还是不太明白这两个问题到底是什么,它们对 A/B 测试有什么影响,不用担心,今天我就会为你深度剖析,带你在实践中去识别它们,并解决它们!

辛普森悖论

听到“辛普森悖论”这个概念,你可能会有点迷茫,不知道它具体说的是什么问题。所以我还是先用音乐 App 来举个例子,告诉你辛普森悖论是什么,以及它在 A/B 测试中到底指的是什么。
一款音乐 App 优化了新用户的注册流程,并且希望通过 A/B 测试在北京、上海这两个主要的市场来验证优化注册后的转化率是否有所提升。
实验组:使用优化后的注册流程。
对照组:使用原有的注册流程。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

A/B测试中的常见误区及解决方法(下):辛普森悖论和实验组/对照组的独立性 本文深入探讨了A/B测试中的两个常见问题:辛普森悖论和实验组/对照组的独立性。辛普森悖论指多组数据内部分布不均可能导致总体比较和细分分析得出相反结论,而实验组和对照组的独立性则是A/B测试的前提,但在实践中常常被破坏。 作者以音乐App的注册流程优化为例,说明了辛普森悖论在A/B测试中的表现和影响。同时,强调了在细分分析前进行合理性检验的重要性,以及重新跑实验和针对性解决问题的方法。 另一方面,文章也详细阐述了实验组和对照组独立性的重要性,指出在实践中可能因业务场景导致两组独立性被破坏,进而影响实验结果的准确性。 总的来说,本文通过具体案例和理论分析,深入浅出地解释了A/B测试中的常见误区及解决方法,为读者提供了宝贵的实践经验和解决问题的思路。 文章还介绍了破坏两组独立性的表现形式和解决方法,包括从地理、资源、时间和聚类等方面进行分离,以避免实验组和对照组之间的干扰。 通过本文,读者能够深入了解A/B测试中的常见误区及解决方法,为实践中的A/B测试提供了重要的指导和思路。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《A/B 测试从 0 到 1》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(9)

  • 最新
  • 精选
  • 贤者时间
    听完这节,我想引申一下:辛普森悖论其实是理论上无法避免的,因为我们永远不知道哪些维度/特征也在发挥作用,而这些维度或许没被觉察到,或许没有被数据采集到。这大概是研究人类行为的社会科学和自然科学的最大差异吧。

    作者回复: 嗯嗯理论上是的,因为维度根据分法不同可能有无穷多个,实践中我们能做的是重点关注对我们有意义的维度,尽量减少它的影响。

    2020-12-31
    10
  • LeoSeattle
    老师好. 我们在临床试验领域内, 也会出现 Simpson 悖论. 常用的方法都是 通过 inverse probability weight 来 调整 加权平均 从而 估计 因果效应. 请问 这种方法 在互联网领域 有应用吗?

    作者回复: 你好,具体的方法可能会有所不同,不过大致的思路是一样的,即通过人工控制每组中各重要因素的相对比例来估计因果,包括你提到的这种方法,我们工作中用倾向评分匹配(Propensity Score Matching)比较多。

    2021-04-29
    2
  • fh@fb
    能否分享一下按时间分隔的实验方法资料,想多了解下,谢谢

    作者回复: 可以参考以下两篇: https://arxiv.org/pdf/1706.07840.pdf https://www.unofficialgoogledatascience.com/2015/10/experiment-design-and-modeling-for-long.html

    2020-12-31
    2
  • 安和
    对于时间分隔的情况,对同一组用户先给实验组策略再给对照组策略,若用户从实验组策略变为对照组策略后,在对照组中的行为也会受到实验组策略的影响,这种情况下也会破坏独立性吧?

    作者回复: 你好,如果说像你说的这种情况,两组还是会有影响的,可以试着改变时间单位看看影响是否会减弱,或者尝试其他的分离策略。

    2021-01-02
  • 那时刻
    请问老师,采用时间的方法来保持两组的独立性。因为是对于同一组人做ab测试,如果先进行对照组实验十天,然后进行试验组十天,如何处理在实验组时候,由于用户流失导致用户数量减少呢?

    作者回复: 你好,如果我理解对的话,你的意思是由于实验组的体验不好造成了用户的流失,对么?如果真的出现你说的这种情况的话,可以适当缩短时间单位(比如把10天变为1天,1小时,1分钟等等),然后加大变化的频率,这样的话能够减少你说的影响。

    2020-12-31
    3
  • always with me
    "当然如果时间比较紧迫,没有时间重新跑实验和检查问题的原因,那么就以细分领域的结果为准,因为总体结果出现了辛普森悖论会变得不准确。" 这里难道不是细分组里面分布不均吗?为什么说要以细分领域的结果为准?
    2022-04-21
    1
    1
  • Dan
    老師您好,除了您上述所說的方法來確立独立性,統計上,會使用什麽檢定來檢驗實驗組和對照組的独立性?
    2021-05-08
    1
    1
  • Ai叼虫小姬
    老师,AB分流前要做同质性校验,如果特征指标少只有1-2个,且没有实验前历史数据,该怎么做同质性校验?
    2023-12-12归属地:上海
  • Mr.Tree
    出现这些问题的原因归根结底可以说成是,影响ab测试的因素不仅仅是一个变量,而且另外的变量中的某个或者多个同时作用于测试并且产生了影响测试结果的影响
    2023-06-20归属地:四川
收起评论
显示
设置
留言
9
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部