作者回复: 你好,这里我的理解是并不是所有发放了优惠卷的用户都会领取,用户需要一定的触发条件(比如要登录)才可以领取?这样的话计算指标时要用满足了触发条件的用户,而不是所有被发放的用户。 我会在第9节课中详细讲触发这种情况的,敬请期待。
作者回复: 你好,A/A测试的话一般是在做A/B测试前进行,具体实施就是对流量随机均分,不过两组的体验完全相同,然后去看评价指标的波动性(比如两组指标是否相同,如果不同是否显著等),从而了解其稳定性,如果两组有显著的不同,那就说明指标稳定性差,不适合做评价指标。
作者回复: 你好,整个这个过程不全是,就像你所说的,流程中的很多步骤都是和业务息息相关的,很难完全标准化,不过可以对常用指标做到部分标准化,比如针对拉新方面的各种A/B测试,那么新用户转化率肯定是一个常用指标,再比如对于优化用户参与度方面的各类A/B测试,使用时间/频率肯定是常用指标等等。A/B测试平台在全流程中,主要承担具体实施A/B测试这个功能(包括如何随机分流,如果控制前端给到不同的用户体验等等),有的会包括部分标准化指标的计算,还有最后的结果计算等。
作者回复: 你好,1. 如果是改变现有的状态且改变有一定成本时需要是要考虑实际显著性的,但是对于探索性质的且改变成本不高的情况下可以不考虑,比如你想看看改变不同广告内容看广告效果如何,这个时候改变不同的广告内容可能只是在A/B测试平台组中进行简单设置,其实并没有很高的成本。2. 如果不考虑实际显著性的话就以统计显著为准。
作者回复: 你好,这个取决于每天的样本量有没有达标(指大于等于我们事先计算的获得显著结果的最小样本量),如果没有的话,那其实每天的结果都是under-power的,也就是说这些转化率是随机产生的概率会很大,结果不可信。
作者回复: 你好,这里的n指的是做历史数据的回溯性分析时所取的样本量的大小,这个是已知的嘛。
作者回复: 你好,这里是概率类指标,所以判断标准有所改变(参看第一节课):min(np,n(1-p)) >= 5。其中,n 为样本大小,p 为概率的平均值。
作者回复: 你好,你的理解和文中讲的是一样的呀。 文中(“把喜欢的音乐加入收藏夹”功能的使用率 = 在符合触发条件后 1 天之内使用了“把喜欢的音乐加入收藏夹”的用户总数 / 实验中的符合触发条件的用户总数)里的”实验中“就是包括对照组和实验组的。
作者回复: 你好,1.对的! 2. 如果指标有周期性波动是要考虑的,常见的周期性是一周,所以10天的话已经包含了一个周期了。
作者回复: 此样本量非彼样本量,第一个你要计算的样本量是此次AB测试所需的最小样本量(在特定的情况下,比如确定α和Power等),最后你提到的样本量是你估算方差/标准差时需要取样的样本量,这里的样本量足够大即可,不需要复杂的计算。