30 | 统计意义（上）：如何通过显著性检验，判断你的A/B测试结果是不是巧合？

黄申



该思维导图由 AI 生成，仅供参考

你好，我是黄申，今天我们来聊聊统计意义和显著性检验。
之前我们已经讨论了几种不同的机器学习算法，包括朴素贝叶斯分类、概率语言模型、决策树等等。不同的方法和算法会产生不同的效果。在很多实际应用中，我们希望能够量化这种效果，并依据相关的数据进行决策。
为了使这种量化尽可能准确、客观，现在的互联网公司通常是根据用户的在线行为来评估算法，并比较同类算法的表现，以此来选择相应的算法。在线测试有一个很大的挑战，那就是如何排除非测试因素的干扰。
从图中可以看出，自 2016 年 1 月 12 日开始，转化率曲线的趋势发生了明显的变化。假如说这天恰好上线了一个新版的技术方案 A，那么转化率上涨一定是新方案导致的吗？不一定吧？很有可能，1 月 12 日有个大型的促销，使得价格有大幅下降，或者有个和大型企业的合作引入了很多优质顾客等，原因有非常多。如果我们取消 12 日上线的技术方案 A，然后用虚线表示在这种情况下的转化率曲线，这个时候得到了另一张图。
从图中可以发现，不用方案 A，反而获得了更好的转化率表现，所以，简单地使用在线测试的结果往往会导致错误的结论，我们需要一个更健壮的测试方法，A/B 测试。
A/B 测试，简单来说，就是为同一个目标制定两个或多个方案，让一部分用户使用 A 方案，另一部分用户使用 B 方案，记录下每个部分用户的使用情况，看哪个方案产生的结果更好。这也意味着，通过 A/B 测试的方式，我们可以拿到使用多个不同方法之后所产生的多组结果，用于对比。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

A/B测试是互联网公司常见的实验方法，用于比较不同算法的效果。在A/B测试中，显著性检验是一种重要的统计学方法，用来判断不同方案的效果是否巧合。通过P值的计算，我们可以确定观测值与假设H0的期望值的偏离程度，从而判断是否拒绝原假设。显著性检验和P值的运用可以帮助我们更科学地评估A/B测试结果，避免错误的结论。文章还介绍了显著性差异、统计假设检验和P值的概念，以及它们在实际应用中的重要性。通过形象的比喻和思考题，读者可以更好地理解这些概念。总的来说，本文通过深入浅出的方式，为读者解释了A/B测试中的统计学方法，为他们在实际应用中提供了有益的指导。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《程序员的数学基础课》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(14)

最新
精选

yaya
我觉得会逐渐变得一致的。样本数量越多，样本均值应该越来越接近于总体均值
作者回复: 是的
2019-02-22
3
12
lianlian
老师早上好啊！在“总结”的上一段写着“如果P值足够小，我们就可以拒绝原假设，认为多个分组内的数据来自不同的数据分布，它们之间存在显著性的差异。”这里，我的理解是，“存在差异的显著性”。请问我的理解对吗？
作者回复: 是的👌
2019-02-22
2
4
Ronnyz
样本越大，得到的结果会越趋于平均值，和显著性检验的结论会变得一致。在假设检验中，当h0成立，而接受h1时，弃真。当h0不成立，而接受h0时，存伪。
作者回复: 很好的总结，弃真和存伪就是我们常说的type1 error和type2 error
2019-10-15
2
3
Paul Shan
思考题样本数量增加，如果是正态分布，均值测量会越来越可靠，其差异也会越来越精确，但是仅仅靠均值无法完整描述分布，还要考虑方差。如果不是正态分布，情况就会更为复杂。
作者回复: 是的👍
2019-09-16

3
Paul Shan
显著性差异差异具有显著性表示差异的原因是分布差异具有显著性差异表示差异的绝对值比较大统计假设检验，先假设，然后看有没有反面证据（在假设条件下的小概率事件），如果有就拒绝原假设，接受对立假设。如果没有就接受原假设。这里拒绝原假设的论证手法和反证法类似。 P值就是在给定假设，观察值发生的概率。这个条件概率越大，假设越可靠。
作者回复: 确切的说，P值是指在空假设（原假设）成立的情况下，给定值发生的概率，如果越小，证明发生的概率越小，越具有偶然性，所以可以更有信心的拒绝空假设。
2019-09-16

3
201201904
前面的概念有点抽象，如果先讲儿子考试的例子会更容易理解一些，这就是观测到的不一定准确，还需要一个指标来衡量观测值的可相信程度。
作者回复: 感谢建议，我们后面看下如何调整一下内容
2021-07-13
2
2
罗耀龙@坐忘
茶艺师学编程思考题：在对比两组数据的差异时，如果不断增加采样次数，也就是样本的数量，使用平均值和使用显著性检验这两者的结论，会不会逐渐变得一致？增加采集次数（样本数量）所得出的平均值，是能趋近整体的平均值……问题是在于平均值能描述出数据本身是如何分布吗？因此我觉得在均值层面，增加采集次数的平均值和使用显著性检验得出的结论趋近相同，在整体来看前者只是后者结论的一部分。
作者回复: 如果两者都是正态分布，可以这么认为
2020-04-22

2
Geek_36d3e5
文中讲到采样导致的错误，那怎样的样本数量就不会导致了呢？一般线上ab桶各5%流量，总样本量已经很大了，看人均ctr，人均消费时长这种数据数据时，仍会存在这种采样的错误吗？主要是因为每个人每天消费pv或点击的样本数少于30？
作者回复: 很好的问题，统计学里有定义统计意义，也就是说在是否具有统计意义。
2023-02-18归属地：北京

1
013923
学完了，谢谢老师！
作者回复: 很高兴对你有所帮助
2022-09-05归属地：美国

1
建强
我的理解是分为两种情况：第一种，如果两组数据来自同一分布，那么随着样本数的增加，两组数的均值分逐渐靠近，使用显著性检验的P值也会一致，则两者得到的结论是一致的；第二种，如果两组数据来自不同的分布，随着样本数的增加，可能两组数的均值也会逐渐靠近，但两组数据使用显著性检验的P值肯定会明显不一致，因此不同分布的情况下，两者的结论可能是不一致的。
作者回复: 第一种，P值会增大，表示两者不同更有可能是采样的偶然性产生。第二种，P值会减少，表示两者的不同由偶然性产生的可能性很小，两者应该是来自不同的数据分布
2020-07-12

1

收起评论