08 | 案例串讲：从0开始，搭建一个规范的A/B测试框架

张博伟

你好，我是博伟。
经过前面几节课的学习，相信你不仅掌握了做 A/B 测试的统计原理，还知道了一个规范的 A/B 测试的流程是什么样的，以及关键步骤中有哪些需要注意的地方。
今天这节课的内容，整体来说不会太难，主要是用一个音乐 App 提升留存率的案例，来串讲一下我们学过的统计知识，以及做 A/B 测试的几个核心步骤。
在学习这节课的过程中，一方面，如果你还有一些没有完全搞懂的内容，可以再针对性地复习下，查漏补缺；另一方面，之前几节课的内容容量都比较大，今天的案例串讲相当于帮助你理清思路，清空大脑，然后再有效地去吸收进阶篇的知识。
好了，那我就通过下面音乐 App 这个案例，来带你走一遍流程。
从业务问题出发，确定 A/B 测试的目标和假设咱们今天案例里的产品是一款音乐 App，用户只要每月付费就可以免广告畅听千万首音乐。当然，除了最基本的播放音乐功能，产品经理还给这款 App 设计了很多便利的功能，比如用户可以把喜欢的音乐加入收藏夹，可以创建不同的歌单，还可以离线下载以便随时随地畅听自己喜欢的音乐，等等。
数据科学家通过数据分析也发现，使用这些便利功能的用户往往有着高于平均水平的续订率，说明这些便利功能确实有助于提升用户留存。但是也有一个问题一直困扰着团队：这些功能虽然方便实用，有助于优化用户的听歌体验，但是使用率却一直不高。使用率不高，从长期来看，势必会影响用户留存。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

这篇文章通过一个音乐App提升留存率的案例，详细介绍了A/B测试的规范框架。首先，从业务问题出发，确定了A/B测试的目标和假设，然后确定了A/B测试的评价指标、触发条件和时间窗口期的设定。接着，文章讲解了评价指标的具体定义和统计分析，以及选取实验对象的单位。经过实验设计和数据收集后，文章分析了测试结果，得出了实验组和对照组的使用率显著不同的结论。最后，团队决定推广有效的弹窗提醒功能，以提高用户留存率。整篇文章通过具体案例串讲，帮助读者理清A/B测试的流程和关键步骤，为进一步学习提供了清晰的思路。文章内容详实，对A/B测试的流程和步骤进行了深入解析，适合技术人员和数据分析师学习参考。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《A/B 测试从 0 到 1》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(18)

最新
精选

贤者时间
请问老师，有这么一个场景，电商平台对低活的用户发放优惠券，优惠券需要用户手动领取，想做ab测试知道发放优惠券是否有提升活跃的效果，那么这里的实验组应该是所有发放了优惠券的用户，还是领取了优惠券的用户呢？
作者回复: 你好，这里我的理解是并不是所有发放了优惠卷的用户都会领取，用户需要一定的触发条件（比如要登录）才可以领取？这样的话计算指标时要用满足了触发条件的用户，而不是所有被发放的用户。我会在第9节课中详细讲触发这种情况的，敬请期待。
2020-12-24
2
5
孙小军
请问老师，前面课程提到的A/A测试在这个案例里面应该怎么体现和实施呢？
作者回复: 你好，A/A测试的话一般是在做A/B测试前进行，具体实施就是对流量随机均分，不过两组的体验完全相同，然后去看评价指标的波动性（比如两组指标是否相同，如果不同是否显著等），从而了解其稳定性，如果两组有显著的不同，那就说明指标稳定性差，不适合做评价指标。
2020-12-31

4
贤者时间
张老师，请问做AB测试，其中从指标选取到分析结果的这些流程，都是在公司搭建的AB测试平台自动化完成的吗？我感觉其中很多步骤都是和业务强相关的，很难标准流程化。比如每个ab测试选的指标不一样的话，那么指标的计算也要重新定义。那么AB测试平台在全流程中，承担的是哪些部分呢？
作者回复: 你好，整个这个过程不全是，就像你所说的，流程中的很多步骤都是和业务息息相关的，很难完全标准化，不过可以对常用指标做到部分标准化，比如针对拉新方面的各种A/B测试，那么新用户转化率肯定是一个常用指标，再比如对于优化用户参与度方面的各类A/B测试，使用时间/频率肯定是常用指标等等。A/B测试平台在全流程中，主要承担具体实施A/B测试这个功能（包括如何随机分流，如果控制前端给到不同的用户体验等等），有的会包括部分标准化指标的计算，还有最后的结果计算等。
2020-12-28

4
Kaye
请问老师，在做决策时，是否总是要考虑实际显著性呢？在什么情况需要考虑，什么情况下不需要考虑？如果不考虑实际显著性，是不是意味着只要试验结果在统计上是显著的，就证明实验组和控制组是有显著差异的？
作者回复: 你好，1. 如果是改变现有的状态且改变有一定成本时需要是要考虑实际显著性的，但是对于探索性质的且改变成本不高的情况下可以不考虑，比如你想看看改变不同广告内容看广告效果如何，这个时候改变不同的广告内容可能只是在A/B测试平台组中进行简单设置，其实并没有很高的成本。2. 如果不考虑实际显著性的话就以统计显著为准。
2020-12-25
2
3
Geek3340
请问老师，我们平时做ab实验，会看每天每个组的转化率，假如实验了七天，实验组与对照组分别有7个值，ttest做的是去检验这两组数有没有差异。现在看ab测试的标准流程好像我们一直做的都不对……合理的应该是把7天的数据加起来求一个总的转化率？
作者回复: 你好，这个取决于每天的样本量有没有达标（指大于等于我们事先计算的获得显著结果的最小样本量），如果没有的话，那其实每天的结果都是under-power的，也就是说这些转化率是随机产生的概率会很大，结果不可信。
2021-04-29
2
2
阿旭
请问老师，这一章里面的：通过对历史数据的回溯性分析，得到了用户在符合触发条件后一天之内使用相关功能的平均概率为 2.0%，通过统计公式最后求得该指标 95% 的置信区间为[1.82%，2.18%]，统计公式为：置信区间 = 样本均值（sample mean） ± Z 分数 * 标准误差概率指标的标准误差公式为：p*(1-p)/n开平方，但是这里的n是不知道的，所以标准误差是怎么计算出来的，是我那里理解错了吗
作者回复: 你好，这里的n指的是做历史数据的回溯性分析时所取的样本量的大小，这个是已知的嘛。
2021-02-20

2
Han
老师：“把喜欢的音乐加入收藏夹”功能的使用率 = 在符合触发条件后 1 天之内使用了“把喜欢的音乐加入收藏夹”的用户总数 / 实验中的符合触发条件的用户总数，这里实验的用户数是80723，这个实验中的数据符合正态分布么？我感觉不符，中心极限定理说样本量不低于30，每个样本量中包含N个样本。实验组用户数是80723，算是一个样本量吧？抽样的样本量应该至少30，是怎么满足的？
作者回复: 你好，这里是概率类指标，所以判断标准有所改变（参看第一节课）：min(np,n(1-p)) >= 5。其中，n 为样本大小，p 为概率的平均值。
2021-01-04

2
DataCenter 1
老师您好，我对这里的实验&对照样本范围感到有疑问，在文中，比如实验组，样本范围是包括 1、符合触发条件的用户 2、不符合触发条件的用户这两部分的用户构成了实验组用户群；对照组也是包括两部分用户， 1、符合触发条件的用户 2、不符合触发条件的用户；以我的理解，难道不应该是无论对照组还是实验组，都只选择符合触发条件的用户作为用户范围；然后再看符合触发条件的用户1天内对使用了“”“把喜欢的音乐加入收藏夹”的比例吗？
作者回复: 你好，你的理解和文中讲的是一样的呀。文中（“把喜欢的音乐加入收藏夹”功能的使用率 = 在符合触发条件后 1 天之内使用了“把喜欢的音乐加入收藏夹”的用户总数 / 实验中的符合触发条件的用户总数）里的”实验中“就是包括对照组和实验组的。
2020-12-25

1
那时刻
请问老师，该用户已经对某首歌听了 4 次，当播放第 5 次时触发弹窗。这个4次是怎么统计得来的呢？是依据历史用户点击收藏夹平均听歌次数么？另外，10天的试验周期，是否考虑用户数据随日期波动性呢？比如是否跨周末，节假日的影响。
作者回复: 你好，1.对的！ 2. 如果指标有周期性波动是要考虑的，常见的周期性是一周，所以10天的话已经包含了一个周期了。
2020-12-24

1
Geek_72a416
我陷入了疑惑： 1.如果我想计算样本量，就要计算对照组 & 实验组的差值 2.如果我要计算差值，就要计算下置信区间 3.如果我要计算置信区间，就要计算标准差 4.如果我要计算标准差，就要知道P和N 然后，P是概率，N是样本量？
作者回复: 此样本量非彼样本量，第一个你要计算的样本量是此次AB测试所需的最小样本量（在特定的情况下，比如确定α和Power等），最后你提到的样本量是你估算方差/标准差时需要取样的样本量，这里的样本量足够大即可，不需要复杂的计算。
2021-07-29
2


收起评论