A/B 测试从 0 到 1
张博伟
FLAG 资深数据科学家
9786 人已学习
新⼈⾸单¥59
登录后,你可以任选2讲全文学习
课程目录
已完结/共 20 讲
开篇词 (1讲)
A/B 测试从 0 到 1
15
15
1.0x
00:00/00:00
登录|注册

07| 分析测试结果:你得到的测试结果真的靠谱吗?

你好,我是博伟。
经过前面的确定目标和假设、确定指标、选取实验单位、计算所需样本大小后,我们终于来到了 A/B 测试的最后一站:分析测试结果。
在正式开始之前,我想先问你一个问题:拿到测试结果之后,就可以马上进行分析了吗?肯定不行。因为只有确定测试结果值得信赖之后,才可以进行分析。其实,分析 A/B 测试结果并不难,难的是如何得出值得信赖的结果,从而给业务以正确的指导。
为什么这么说呢?接下来,我就通过一个音乐 App 要提高用户升级率的例子,和你先拆解下导致测试结果不可靠的因素有哪些,然后再看看具体该怎么分析。

案例导入

通常情况下,音乐 App 有两种盈利模式,一种是提供免费音乐,但是会在 App 中加广告,通过广告赚钱;一种是让用户付费订阅 App,享受高品质的免广告音乐。
我们的这款音乐 App 是两种盈利模式都有,但是从长期盈利效果和用户体验来看,采用用户付费订阅的模式会更胜一筹。因此,我们计划在双十一前后,针对 App 里的免费用户做一次促销,吸引他们付费。
现在有这么两条广告语,为了通过 A/B 测试验证哪条更有效,将其分别放到实验组和对照组:
对照组广告语:千万曲库免广告无限畅听,用户升级,免费试用半年!
实验组广告语:即日起到 11 月 15 日,用户升级,免费试用半年!
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

A/B测试结果分析的关键要点 本文深入探讨了A/B测试的结果分析阶段,通过一个音乐App提高用户升级率的案例,详细介绍了如何确定测试结果的可信度以及何时停止A/B测试。作者强调了在实验中需要考虑样本量和指标周期性变化的因素,并介绍了多重检验问题和假阳性的概念。此外,还讲解了保障统计品质的合理性检验,包括检验实验/对照组样本量的比例和实验/对照组中特征的分布。文章还介绍了如何分析A/B测试的结果,包括使用P值法和置信区间法来验证假设是否正确。最后,文章指出在实际应用中,需要考虑实施变化后的收益和成本的关系时,应选择置信区间法。 总结要点: 1. 等待足够样本量再分析测试结果,切莫心急。 2. 分析结果前做合理性检验确保测试质量。 3. 根据指标和数据特点选择正确的分析方法。 4. 保障统计品质的合理性检验,包括检验实验/对照组样本量的比例和特征的分布。 5. 使用P值法和置信区间法来验证假设是否正确。 6. 在实际应用中,考虑实施变化后的收益和成本的关系时,选择置信区间法。 这些要点为读者提供了深入了解A/B测试结果分析的指导,帮助他们在实践中更好地应用这些方法。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《A/B 测试从 0 到 1》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(18)

  • 最新
  • 精选
  • 贤者时间
    因为要考虑收益和成本的关系时,除了满足结果在统计上是显著的(两组指标不相同,差值的置信区间不包括 0)还不够,更要让结果在业务上也是显著的(两组指标不仅要不相等,而且其差值δ >= δ收支平衡​,并且差值的置信区间的范围都要比 δ收支平衡​ 大)。 上面这段话的后半部分不太明白,两个方法在统计学上是等价的,那置信区间怎么保证差值δ >= δ收支平衡​呢?我们计算样本量的时候,不是已经考虑到这个差值了吗?那么只要统计上显著,就说明超过这个差值了,不是吗?

    作者回复: 你好,达到了(根据δ收支平衡作为最小检测提升​来计算的)样本量,只是说明当δ>=δ收支平衡时,结果才有可能统计显著(非假阳性),但是这里要注意,实验观测到的δ>=δ收支平衡,并不代表δ真的大于δ收支平衡,因为δ本身也是个随机变量,因为这个实验观测到的δ>=δ收支平衡有可能是偶然得到的,结果统计显著只是说明δ不等于0(两组不同),所以要想证明δ>=δ收支平衡在事实上成立,还是得要δ的置信区间的范围都要比 δ收支平衡​大(即δ的置信区间要不能包含δ收支平衡,而且δ的整个置信区间都要比δ收支平衡大。

    2020-12-28
    4
  • 吴优秀同学
    对专栏唯一的抱怨就是更新太慢。在这里请教老师一个问题,在计算样本量的时候我们预估会有10%的提升,然后以此得出样本量进行abtest。最后发现a组和b组之间的比率之差没有达到10%只有3%,但是统计结果是显著的。那是不是意味着我们还要继续进行检验,增加样本量,让我们能够对3%的差异进行检测呢?还是说差异没达到10%,不用进行统计学检测,直接否定这个改变能带来10%的差异这个假设。

    编辑回复: 哈哈也是吴优秀同学学习吸收的速度太快了!

    2020-12-22
    7
    3
  • 贤者时间
    在 保障统计品质的合理性检验 这一节中老师提到,“各组样本量占总样本量的比例也是概率,也是符合二项分布的”,这句话很不理解,为什么这个比例会服从二项分布呢?这里面的总体、样本、样本点分别是什么呢?我理解二项分布是N次独立重复实现发生K次的概率,但是这个想法在这个例子中好像很难套进去。

    作者回复: 你好,A/B测试中一个重要的环节就是要把实验单位分组,一个实验单位要么被分到实验组,要么被分到对照组这里的话你可以把每个实验对象分组这个事件当做N次独立重复事件,其中‘实验对象被分配到实验组’这个结果发生了K次,这样子理解的话就是二项分布啦。

    2020-12-22
    3
  • 贤者时间
    请教老师一个问题。假如出现下面这种情况,怎么办: 实验组和对照组经过假设检验后,结果是显著的; 但是对照组指标加上历史波动率之后,实验组指标又没有达到。 (假设其他条件都是满足的。) 那这个结果还是显著的吗?如何对待呢?

    作者回复: 你好,你说的这种情况从统计角度上来说应该不会出现,因为指标的历史波动率一般是95%的置信区间,计算结果时的置信水平也是95%(显著水平5%), 所以理论上这个情况是不太可能成立的。

    2021-01-12
    3
    2
  • 西西
    合理性检验如果没有通过怎么办呢?比如样本量差异过大,应该重新做实验吗?或者在较大的样本量中随机选出和较小样本量差不多的样本进行比较可行吗?

    作者回复: 条件允许的话推荐重新做实验,因为样本差异过大可能是因为偶然的随机不够造成的,如果重新做实验还存在类似的情况的话如果实验流程没有错误的话,那么可能就是实施层面除了问题,需要和工程师来一起找bug了。当然如果时间紧迫没时间去跑新的实验在较大的样本量中随机选出和较小样本量差不多的样本进行比较,比如用倾向评分匹配(Propensity Score Matching),这个我在第9节课和第12节课中都会讲解。

    2020-12-22
    2
  • 那时刻
    我们目前使用的护栏指标是DAU和留存,细想了下,感觉可以归入到老师提到的delta收支平衡。不知理解是否正确? 另外请教老师两个问题: 1. 因为要考虑收益和成本的关系时,让结果在业务上也是显著的(两组指标不仅要不相等,而且其差值δ >= delta_收支平衡,并且差值的置信区间的范围都要比 delta 大。为什么同时要求差值的置信区间比delta大呢? 2. 评价指标的波动范围:[1.86%,2.14%]。这数据是依据历史数据算出的么? 另外,体会到老师说到前后文章是有关联的,文中“我们构建了 95% 的置信区间[50%-1.96*0.06%, 50%+1.96*0.06%] = [49.88%,50.12%]”。我迟疑这个1.96,后来在第四章找到,它表示95%置信区间的Z score。通过例子翻阅之前的理论,蛮有意思的,同时也加深印象。

    作者回复: 你好,很高兴你能体会到课程的连贯性。对于你的问题:1.因为差值delta是一个随机变量,是有波动范围的,差值的置信区间比delta_收支平衡大这个要求就是说明差值的波动范围都要比delta_收支平衡大才行,我们把它用一个数δ表示,这个δ只是代表了其平均值而已。2.对的,是根据历史数据算出的哈。

    2020-12-22
    1
  • frango
    老师,能出一版 用公式计算的吗?这用软件算,不同软件包不一样,计算原理也不知道,

    作者回复: 哈哈公式的话写出来有些复杂且枯燥,毕竟本专栏还是以实用为主,不过你如果感兴趣的话可以把Python/R这些开源软件包的源代码找出来看下,而且你也可以从中找到这些代码中计算原理相关的文献的。

    2021-07-29
  • 章光辉
    读者贤者时间问的问题确实有可能发生,拿老师的例子为例: - 实验组:样本量为 315256,升级的用户为 7566,升级率为 2.4%。 - 对照组:样本量为 315174,升级的用户为 6303,升级率为 2.0%。 通过计算发现结果是显著的,但是历史数据表明对照组的升级率在1.5%~2.5%之间波动,所以从历史数据来看实验组又不显著,请问这种情况下要如何分析?
    2021-06-26
    4
    2
  • 飞飞今天学会da了吗
    老师您好: 下述部分 现在我们已经拿到了如下的测试结果:实验组:样本量为 315256,升级的用户为 7566,升级率为 2.4%。对照组:样本量为 315174,升级的用户为 6303,升级率为 2.0%。因为评价指标的波动范围是[1.86%,2.14%] 我按照 2.0% 加减 根号(0.02*0.98/(315174+315256)) 计算出来的结果与上述结论不同 请问下老师这个结论是按照什么逻辑计算出来的呢?谢谢老师
    2022-07-05
    1
  • 嘻嘻大魔王
    老师,我有一个问题,如果我们这边每次用平台20%流量的uid去做ab测试(大约3000w用户),可观测的指标超过100个,如果每个指标都做z test的话,这个计算量应该如何优化? 像我们这种hash 分桶的抽样方式是不是已经可以省去检验步骤,直接观测策略对大盘的整体影响了?
    2021-12-19
    1
收起评论
显示
设置
留言
18
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部