A/B 测试从 0 到 1

豆丁儿

过来查缺补漏的，老师很专业，讲的很清楚

作者回复：希望助你在AB测试之旅越走越远！

2021-04-06

2

James.li

虽然不是从事相关岗位，但未来跟大数据的同学讨论和分析业务这下心里更有数了。:-D

作者回复：加油！希望能帮到你！

2021-03-28

5

Dan

老師您好，双尾检验可以帮助我们全面考虑变化带来的正、负面结果，那如何檢驗是正面還負面結果？一般來說來我們希望實驗組(Ex:新的推薦演算法)的結果比較好，為何AB test不常使用单尾检验?

作者回复：你好！实验组有没有效果是由实验结果来决定的（比较实验组和对照组的评价指标的不同），检验在这里只是告诉你这个‘不同’是不是统计显著的，这个‘不同’可以是正的也可以是负的。正如你说的，大多数情况我们是‘希望’实验组结果更好，但是我们并没有100%确定（如果100%确定的话也就不需要实验了嘛），所以还是会有一定概率实验结果和我们预期不符，双尾检验的话会更加保险一些。

2021-03-25

2

Geek_8c33f8

老师好，关于“概率类指标，能否使用t检验？”这个问题，如果核心指标是比例，能都用这个比例指标（A除以B计算后的指标值）再去计算整体的均值？这样理解是不是概率类/比例类指标是不是也可以使用T检验呢

作者回复：先说结论：概率类指标在数据量大的情况下也可以使用t检验。再说原因：在大样本量的情况下（统计上定义为大于30，现在的大数据时代让我们的数据远远大于这个数值），t检验和z检验几乎是等价的，没有太大区别，所以大数据时代不要太纠结t或者是z。而且根据中心极限定理，这些指标都是近似服从正态分布的。

2021-03-22

2

Geek_3a3675

老师，想问一下统计公式算置信区间的时候为什么用的是Z分数而不是T分数？这里不是通过样本来算的吗？

作者回复：你好！在大样本量的情况下（统计上定义为大于30，现在的大数据时代让我们的数据远远大于这个数值），t分布和z分布几乎是等价的，没有太大区别，所以大数据时代不要太纠结t或者是z。可以参看一下资料： https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/t-score-vs-z-score/

2021-03-16



橙汁好

老师好，我有两个问题： 1.我在网上找样本量计算公式的时候，都没找到这个样本量公式是怎么推导出来的，请问您这有相关的资料推荐吗？ 2.现在网上看到好多资料，都写着均值类指标的检验可用t检验也可用z检验，比率类的指标用只能用检验，这是正确的吗？如果正确那是为什么？困扰我很久了，望老师解答，谢谢🙏

作者回复：你好，1. 样本量计算的公式变体有很多（比如计算sigma的方式不同类指标会不同）我这里给出的是一个通用的公式，参考资料推荐以下这本书和一个网络资源： https://www.amazon.com/Statistical-Methods-Online-Testing-commerce/dp/1694079724 https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_power/bs704_power_print.html 2. z检验和t检验这些概念其实都是诞生于小样本量时代的统计学（比如大于30就算大样本），在小样本量时代如果population的variance已知就用z检验，未知就用t检验，比例类指标由于其自身统计分布属性，population的variance可以通过sample数据结合公式算出，而无需知道所有population，所以是已知（用z检验），但是均值类指标没有这样的属性，所以用t检验。本专栏在后面计算测试结果时也延续了这样的传统。但是现在的大数据时代我们可以拿到的样本量本身就很多（远远超过30），这么大的样本量近似就可以代表population，而且根据中央极限定理，大数据下的指标大都可以近似为正态分布，所以实际效果上来看，不管是均值类指标和比率类指标，在大数据的情况下使用z检验和t检验得出的结论是一致的。

2021-03-09

4

GEEKBANG_8987898

最近在做这样一个AB TEST，对比发送/不发送促销邮件对GMB/buyer指标的影响，在分好的测试/对照组中，发现初始的GMB/buyer不一致，这样就不能比较了吧？有什么方便的处理方法么？

作者回复：你好，这种情况的话你要看初始的指标不一致是不是显著不同，如果是的话就不要急着做A/B测试，要先明确是什么原因造成的，这种情况有以下几种可能： 1. 分组不均这个是最常见的原因，可能是因为样本量太小，或者分组机制没有做到完全随机，要查找原因的话可以：A.和工程师一起从实施的流程方面进行检查，看看是不是具体实施层面上两组有偏差或者 bug。B.从不同的维度来分析现有的数据，看看是不是某一个特定维度存在偏差。常用的维度有时间（天）、操作系统、设备类型等。比如从操作系统维度，去看两组中 iOS 和 Android 的用户的比例是否存在偏差，如果是的话那说明原因和操作系统有关。(第7讲中有介绍） 2. 如果排除了分组不均，那么有可能是指标本身波动性太大，这时候就要考虑换个指标啦。

2021-03-02

4

启

老师，如果一个AB实验的评价指标为用户日均app使用时长，AB两组各1w个用户，实验时长一个月。假设检验的目的是验证AB两组最终的差异delta是实验本身带来的差异，而不是抽样造成的差异。基于这个场景，我有两个问题： 1. 两组的差异delta理论上有可能来源于3个地方：用户抽样误差（只抽取了1w个用户，而没有抽取无限多用户）；实验本身带来的差异；实验日期抽样误差（只实验了30天，而没有实验无限多天）。一般的AB实验中我们只考虑了前两个因素，那么对于实验日期抽样误差这个因素应该如何考虑？ 2. 假设我把全国所有的用户分成AB两组做实验，是否可以将一组内所有用户一天的平均值当作一个样本进行检验？也就是说，如果实验持续30天，那么最终A组有30个样本，B组有30个样本

作者回复：你好，对于你的第一个问题：总结的很好！对于你说的第三个差异来源：时间，如果真的想严谨的考虑，实践中也是有办法的，就是设置一个长时间的Holdback组，假设通过A/B测试我们发现实验组效果好，在之后做决策时，可以给绝大部分的用户（比如99%）实验组的体验（而不是全部100%用户），这时候一直留一个1%的holdback组（控制组的体验），这样的就可以看出随着时间的推移两者的差异如何变化。对于你的第二个问题：如果将一组内所有用户一天的平均值当作一个样本，会出现几个问题： 1. 样本量会急剧减小，使得中心极限定理那以满足，统计计算难以展开； 2. 以天为单位可能会出现波动性，比如周中和周末的用户行为不同，给A/B测试造成额外的干扰； 3. 实验单位也不再是用户，这样话没有办法来衡量用户反应相关的指标。

2021-02-08

13

Geek_d4ccac

请问老师我在查阅网上资料时发现大部分对于概率类指标的综合方差都除以了样本量n，其根据是概率类指标是期望为p 方差为p(1-p)/n的分布。我们这里计算的时候为什么不需要除以n呢？

作者回复：你好，这里面有两个特别容易混淆的统计概念：标准差（Standard Deviation)和标准误（Standard Error), 前者是方差的平方根，你查的资料应该是把标准误当做了标准差计算得到的方差，关于两者的区别，这里有一些资料可以参考： https://www.zhihu.com/question/22864111 https://en.wikipedia.org/wiki/Standard_error https://stats.stackexchange.com/questions/29641/standard-error-for-the-mean-of-a-sample-of-binomial-random-variables

2021-02-08



张怡婷

请问老师，用户为试验单位的AB，特征分布需要看哪些呢？以及如何在试验之前就科学快速选取到合适的分组？感觉后验的方式在实操过程中成本还是挺高的

作者回复：你好，第一个问题：以用户为实验单位，特征分布的话一般会看几大类： 1. 人口统计数据（demographic）：年龄，地点，性别等； 2. 用户与产品/服务的互动情况，比如活跃长度，使用时长等等当然根据不同的A/B测试，这些数据可能有，也可能没有，上述列出的仅供参考，并不是说一定要有。第二个问题：后验的成本是要高一些，在样本量大的情况下，随机分组是实验前科学快速的最常用方法。

2021-02-02



讲师

张博伟

FLAG 资深数据科学家

张博伟，目前在硅谷大厂 FLAG 任资深数据科学家，7 年 + 数据科学从业经验。擅长 A/B 测试在增长方面的应用，与工程、营销和产品团队合作，通过 A/B 测试已累积为公司带来百万级用户增长；作为数据科学的接头人，和工程团队一起改进提升公司内部的 A/B 测试平台。目前在 FLAG 作为数据...查看更多

张博伟

FLAG 资深数据科学家

产品经理