程序员的数学基础课
黄申
LinkedIn 资深数据科学家
83374 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 58 讲
导读 (1讲)
基础思想篇 (18讲)
程序员的数学基础课
15
15
1.0x
00:00/00:00
登录|注册

30 | 统计意义(上):如何通过显著性检验,判断你的A/B测试结果是不是巧合?

显著差异
统计意义
采样引起的差异
数据分布差异
采样数据的误差
右侧正态分布B均值大
左侧正态分布A均值小
对每组的30个数值取平均数是否足够
比较结果
记录用户使用情况
制定两个或多个方案
排除非测试因素的干扰
增加采样次数对结论的影响
形象比喻
重要概念
差异显著性检验
计算P值
P值的大小
Probability
显著性水平
统计假设检验的步骤
虚无假设和对立假设
差异具有显著性
两组数据差异的原因
正态分布的关系
问题
A/B测试
在线测试的挑战
量化算法效果
思考题
总结
P值
统计假设检验和显著性检验
显著性差异
判断哪个方案效果更好
互联网公司的A/B测试
如何通过显著性检验,判断你的A/B测试结果是不是巧合?

该思维导图由 AI 生成,仅供参考

你好,我是黄申,今天我们来聊聊统计意义和显著性检验。
之前我们已经讨论了几种不同的机器学习算法,包括朴素贝叶斯分类、概率语言模型、决策树等等。不同的方法和算法会产生不同的效果。在很多实际应用中,我们希望能够量化这种效果,并依据相关的数据进行决策。
为了使这种量化尽可能准确、客观,现在的互联网公司通常是根据用户的在线行为来评估算法,并比较同类算法的表现,以此来选择相应的算法。在线测试有一个很大的挑战,那就是如何排除非测试因素的干扰。
从图中可以看出,自 2016 年 1 月 12 日开始,转化率曲线的趋势发生了明显的变化。假如说这天恰好上线了一个新版的技术方案 A,那么转化率上涨一定是新方案导致的吗?不一定吧?很有可能,1 月 12 日有个大型的促销,使得价格有大幅下降,或者有个和大型企业的合作引入了很多优质顾客等,原因有非常多。如果我们取消 12 日上线的技术方案 A,然后用虚线表示在这种情况下的转化率曲线,这个时候得到了另一张图。
从图中可以发现,不用方案 A,反而获得了更好的转化率表现,所以,简单地使用在线测试的结果往往会导致错误的结论,我们需要一个更健壮的测试方法,A/B 测试。
A/B 测试,简单来说,就是为同一个目标制定两个或多个方案,让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下每个部分用户的使用情况,看哪个方案产生的结果更好。这也意味着,通过 A/B 测试的方式,我们可以拿到使用多个不同方法之后所产生的多组结果,用于对比。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

A/B测试是互联网公司常见的实验方法,用于比较不同算法的效果。在A/B测试中,显著性检验是一种重要的统计学方法,用来判断不同方案的效果是否巧合。通过P值的计算,我们可以确定观测值与假设H0的期望值的偏离程度,从而判断是否拒绝原假设。显著性检验和P值的运用可以帮助我们更科学地评估A/B测试结果,避免错误的结论。文章还介绍了显著性差异、统计假设检验和P值的概念,以及它们在实际应用中的重要性。通过形象的比喻和思考题,读者可以更好地理解这些概念。总的来说,本文通过深入浅出的方式,为读者解释了A/B测试中的统计学方法,为他们在实际应用中提供了有益的指导。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《程序员的数学基础课》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(14)

  • 最新
  • 精选
  • yaya
    我觉得会逐渐变得一致的。样本数量越多,样本均值应该越来越接近于总体均值

    作者回复: 是的

    2019-02-22
    3
    12
  • lianlian
    老师早上好啊!在“总结”的上一段写着“如果P值足够小,我们就可以拒绝原假设,认为多个分组内的数据来自不同的数据分布,它们之间存在显著性的差异。”这里,我的理解是,“存在差异的显著性”。请问我的理解对吗?

    作者回复: 是的👌

    2019-02-22
    2
    4
  • Ronnyz
    样本越大,得到的结果会越趋于平均值,和显著性检验的结论会变得一致。 在假设检验中,当h0成立,而接受h1时,弃真。当h0不成立,而接受h0时,存伪。

    作者回复: 很好的总结,弃真和存伪就是我们常说的type1 error和type2 error

    2019-10-15
    2
    3
  • Paul Shan
    思考题 样本数量增加,如果是正态分布,均值测量会越来越可靠,其差异也会越来越精确,但是仅仅靠均值无法完整描述分布,还要考虑方差。如果不是正态分布,情况就会更为复杂。

    作者回复: 是的👍

    2019-09-16
    3
  • Paul Shan
    显著性差异 差异具有显著性表示差异的原因是分布差异 具有显著性差异表示差异的绝对值比较大 统计假设检验,先假设,然后看有没有反面证据(在假设条件下的小概率事件),如果有就拒绝原假设,接受对立假设。如果没有就接受原假设。这里拒绝原假设的论证手法和反证法类似。 P值就是在给定假设,观察值发生的概率。这个条件概率越大,假设越可靠。

    作者回复: 确切的说,P值是指在空假设(原假设)成立的情况下,给定值发生的概率,如果越小,证明发生的概率越小,越具有偶然性,所以可以更有信心的拒绝空假设。

    2019-09-16
    3
  • 201201904
    前面的概念有点抽象,如果先讲儿子考试的例子会更容易理解一些,这就是观测到的不一定准确,还需要一个指标来衡量观测值的可相信程度。

    作者回复: 感谢建议,我们后面看下如何调整一下内容

    2021-07-13
    2
    2
  • 罗耀龙@坐忘
    茶艺师学编程 思考题:在对比两组数据的差异时,如果不断增加采样次数,也就是样本的数量,使用平均值和使用显著性检验这两者的结论,会不会逐渐变得一致? 增加采集次数(样本数量)所得出的平均值,是能趋近整体的平均值……问题是在于平均值能描述出数据本身是如何分布吗? 因此我觉得在均值层面,增加采集次数的平均值和使用显著性检验得出的结论趋近相同,在整体来看前者只是后者结论的一部分。

    作者回复: 如果两者都是正态分布,可以这么认为

    2020-04-22
    2
  • Geek_36d3e5
    文中讲到采样导致的错误,那怎样的样本数量就不会导致了呢?一般线上ab桶各5%流量,总样本量已经很大了,看人均ctr,人均消费时长这种数据数据时,仍会存在这种采样的错误吗?主要是因为每个人每天消费pv或点击的样本数少于30?

    作者回复: 很好的问题,统计学里有定义统计意义,也就是说在是否具有统计意义。

    2023-02-18归属地:北京
    1
  • 013923
    学完了,谢谢老师!

    作者回复: 很高兴对你有所帮助

    2022-09-05归属地:美国
    1
  • 建强
    我的理解是分为两种情况: 第一种,如果两组数据来自同一分布,那么随着样本数的增加,两组数的均值分逐渐靠近,使用显著性检验的P值也会一致,则两者得到的结论是一致的; 第二种,如果两组数据来自不同的分布,随着样本数的增加,可能两组数的均值也会逐渐靠近,但两组数据使用显著性检验的P值肯定会明显不一致,因此不同分布的情况下,两者的结论可能是不一致的。

    作者回复: 第一种,P值会增大,表示两者不同更有可能是采样的偶然性产生。 第二种,P值会减少,表示两者的不同由偶然性产生的可能性很小,两者应该是来自不同的数据分布

    2020-07-12
    1
收起评论
显示
设置
留言
14
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部