06 | 选择实验样本量：样本量越多越好吗？

张博伟

你好，我是博伟。
前面聊了很多 A/B 测试的准备工作，我们确定了目标和指标，也选取了实验单位，那么，现在可以正式开始测试了吗?
先别着急，我们还需要解决正式测试前的最后一个问题：到底多少样本量是合适的呢？
打破误区：样本量并不是越多越好如果我问你，做 A/B 测试时多少样本量合适，你的第一反应肯定是，那当然是越多越好啊。样本量越多，实验结果才会越准确嘛！
从统计理论上来说，确实是这样。因为样本量越大，样本所具有的代表性才越强。但在实际业务中，样本量其实是越少越好。
为什么会这样说呢？我来带你分析一下。
要弄明白这个问题，你首先要知道 A/B 需要做多长时间，我给你一个公式：A/B 测试所需的时间 = 总样本量 / 每天可以得到的样本量。
你看，从公式就能看出来，样本量越小，意味着实验所进行的时间越短。在实际业务场景中，时间往往是最宝贵的资源，毕竟，快速迭代贵在一个“快”字。
另外，我们做 A/B 测试的目的，就是为了验证某种改变是否可以提升产品、业务，当然也可能出现某种改变会对产品、业务造成损害的情况，所以这就有一定的试错成本。那么，实验范围越小，样本量越小，试错成本就会越低。
你看，实践和理论上对样本量的需求，其实是一对矛盾。所以，我们就要在统计理论和实际业务场景这两者中间做一个平衡：在 A/B 测试中，既要保证样本量足够大，又要把实验控制在尽可能短的时间内。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入探讨了A/B测试样本量计算及实际应用的重要性和方法。文章首先介绍了样本量计算的原理和影响因素，强调了在A/B测试中需要在统计理论和实际业务场景中做平衡，保证样本量足够大的同时尽可能缩短实验时间。在实践中，绝大部分的A/B测试都会遵循统计中的惯例，设置显著水平和Power。文章还介绍了估算实验组和对照组评价指标的差值以及计算实验组和对照组的综合方差的方法。通过深入解析统计学原理和实际计算方法，读者能够掌握计算不同评价指标类型所需的样本量大小。总结时强调了样本量计算的方法是为了让A/B测试结果达到统计显著性的最小样本量，同时提醒读者在使用网上的A/B测试样本量计算器时要注意输入的参数类型，以及未来将会教大家如何制作一个既包含概率类指标，又包含均值类指标的线上样本量计算器。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《A/B 测试从 0 到 1》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(32)

最新
精选

西西
置顶
样本量的选取一直是工作中很困扰的点，这个课真的超级棒，老师讲的很清晰。想再确认一下： 1. 不管是自己还是网站计算得到的样本量，其实都是单组的样本量，并不是实验总体样本量？ 2. 如果不介意测试时间，最小组的样本量也达到最小样本量，那么是不是即使不均分的样本（比如20%和80%）通过假设检验得到的结果也是完全可信的？ 3. 如果最小组的样本量未达到最小样本量，那么是不是实验结果就是完全不可信的？或者说有一定可信度，但无法完全信任？
作者回复: 你好，1.可以仔细看下文章最后的案例串讲，8倍的公式时单组的样本量，均分的话乘以2就是总体的样本量。 2. 如果样本量不是均分的话，其实理论上来说方差是要算unpooled variance的，不过其实一般都可以用pooled variance近似的，最小组的样本量也达到最小样本量结果是可信的。 3. 最小组的样本量未达到最小样本量的话，得出的结果出现假阳性的概率就会增大，那么结果的可信度就会降低，所以很不推荐，我之后在分析实验结果和进阶篇都会讲解这个问题的。
2020-12-19
2
3
贤者时间
思考题：为什么网上大部分的样本量计算器只能算概率类的指标而不能计算均值类指标？答：因为在计算「实验组和对照组的综合方差」时，均值类指标需要用到历史数据，而概率类不用。
作者回复: 正解! 均值类的方差计算需要知道每个数据点，而概率类符合二项分布，可以通过公式计算得出。
2020-12-23
2
12
Geek_344c05
老师你好我看到网上常用的sample size calculator一般只要求输入三个parameter, significance value, power, min effect size，并没有要求pooled variance，这种计算器是不是一般用来计算转换率，百分比这样的测试呢？如果是均值，要计算pooled variance，是不是要assume两个组的variance 差别不大呢（好像student t test就要求variance across groups equal)？对于第一次做均值的测试，没有历史数据参考，这样的话我们本想通过公式来计算的sample size和计算pooled variance时候用到的n 是不是就矛盾了？这种情况下是不是就需要run A/A test来提前获得n?
作者回复: 你好，对于你的这三个问题的理解都是对的！
2021-06-21
2
4
橙汁好
老师好，我有两个问题： 1.我在网上找样本量计算公式的时候，都没找到这个样本量公式是怎么推导出来的，请问您这有相关的资料推荐吗？ 2.现在网上看到好多资料，都写着均值类指标的检验可用t检验也可用z检验，比率类的指标用只能用检验，这是正确的吗？如果正确那是为什么？困扰我很久了，望老师解答，谢谢🙏
作者回复: 你好，1. 样本量计算的公式变体有很多（比如计算sigma的方式不同类指标会不同）我这里给出的是一个通用的公式，参考资料推荐以下这本书和一个网络资源： https://www.amazon.com/Statistical-Methods-Online-Testing-commerce/dp/1694079724 https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_power/bs704_power_print.html 2. z检验和t检验这些概念其实都是诞生于小样本量时代的统计学（比如大于30就算大样本），在小样本量时代如果population的variance已知就用z检验，未知就用t检验，比例类指标由于其自身统计分布属性，population的variance可以通过sample数据结合公式算出，而无需知道所有population，所以是已知（用z检验），但是均值类指标没有这样的属性，所以用t检验。本专栏在后面计算测试结果时也延续了这样的传统。但是现在的大数据时代我们可以拿到的样本量本身就很多（远远超过30），这么大的样本量近似就可以代表population，而且根据中央极限定理，大数据下的指标大都可以近似为正态分布，所以实际效果上来看，不管是均值类指标和比率类指标，在大数据的情况下使用z检验和t检验得出的结论是一致的。
2021-03-09

4
孙小军
老师你好，我重新看了下统计篇的讲稿，没有找到关于综合方差（pool variance)的讲解，可以加一些讲解吗？还是我看漏了没找到？谢谢。
作者回复: 你好，综合方差（pooled variance)是指当多组数据混合在一起后，估算总体方差的方法，这里你可以理解为表征实验中指标总的（包括实验组和对照组）波动性的一种方法。
2020-12-30

4
Marrbor
对均值\sigma^2_{pooled}指标计算公式中有用到样本数n，但目标就是预估样本数，逻辑上有互斥。是否可以理解为用历史 \sigma^2_{control} 来代替就可以了。
作者回复: 两个样本量指代的不同，计算方差的是用历史数据抽样，样本量指的是抽样的样本量，而我们在AB测试中常说的样本量估算是指测试本身需要的样本量，这个才是我们需要估算的。
2021-07-29
3
1
w悲愤de卡卡西亲
要是我们需要对均值类指标的t test做样本量估算，还能用这节课的方法去做吗？对应的z score是否需要切换成t score？
作者回复: 你好！可以的，这里的话不管是均值类还是比率类指标在计算样本量时都要用z score, 因为在现在的大数据时代（意味着样本量足够大），根据中心极限定理，这些指标都是近似服从正态分布的。
2021-03-12

1
金hb.Ryan 冷空氣駕到
样本量在实验中一定会看的吗？如果通过P值<0.05来看A/B结果可信不可信是不是可以。
作者回复: 你好，样本量在实验中是一定要看的，因为如果样本量不足时即使得出结果显著也有很大概率是假阳性，我在第7讲和进阶篇里都会讲这个问题的。
2020-12-19
2
1
奕奕
老师你好，我想问下，在A/B测试的时候不是建议最少样本量吗，那计算出来的N值不是最少样本量的数量？为啥还要50%/50% 测试？
作者回复: 没有太懂你的问题，可以再补充说明下么？
2021-08-25


不知太平
有个疑问，zscore对一组随机变量计算的，如果设α为0.05，1-α/2也只是一个数值，怎么计算其zscore呢？
作者回复: 这里的z score是查表获得，并不需要计算的。
2021-08-13



收起评论