A/B 测试从 0 到 1
张博伟
FLAG 资深数据科学家
9786 人已学习
新⼈⾸单¥59
登录后,你可以任选2讲全文学习
课程目录
已完结/共 20 讲
开篇词 (1讲)
A/B 测试从 0 到 1
15
15
1.0x
00:00/00:00
登录|注册

01 | 统计基础(上):系统掌握指标的统计属性

你好,我是博伟。
在学习、解决技术问题的时候,我们都知道有这么一句话“知其然知其所以然”。那么,A/B 测试的“所以然”是什么呢?在我看来,就是 A/B 测试背后的计算原理,知道 A/B 测试为什么要这么设计,最佳实践中为什么要选择这样的指标、那样的检验方法。
那说到 A/B 测试背后的计算原理,我们首先得知道,A/B 测试的理论基础是假设检验(Hypothesis Testing)。可以说,假设检验,贯穿了 A/B 测试从实验设计到分析测试结果的整个流程。
如果要一句话解释“假设检验”的话,就是选取一种合适的检验方法,去验证在 A/B 测试中我们提出的假设是否正确。现在,你只要知道“假设检验”中,最重要也最核心的是“检验”就可以了,因为选取哪种检验方法,取决于指标的统计属性。
也就是说,理解指标的统计属性,是我们掌握假设检验和 A/B 测试的前提,也是“知其所以然”的第一步。
而至于深入理解并用好“假设检验”的任务,我们就留着下一讲去完成吧。

指标的统计属性,指的是什么?

在实际业务中,我们常用的指标其实就是两类:
均值类的指标,比如用户的平均使用时长、平均购买金额、平均购买频率,等等。
概率类的指标,比如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率),等等。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入介绍了A/B测试中指标的统计属性,重点讨论了均值类指标和概率类指标的统计属性,以及它们对假设检验和A/B测试的重要性。文章详细解释了正态分布和二项分布的概念,以及中心极限定理对均值类变量的影响。通过具体的社交App例子,生动地阐述了概率类指标的分布特点,并提出了提高样本量以使分布趋近正态分布的方法。作者总结了中心极限定理、正态分布、二项分布、方差、标准差和z分数等统计概念,强调了理解指标的统计属性对于A/B测试的重要性。整体而言,本文为读者提供了系统掌握A/B测试统计基础的基础知识,对于理解A/B测试的统计过程具有重要的指导意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《A/B 测试从 0 到 1》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(35)

  • 最新
  • 精选
  • 老师,如果一个AB实验的评价指标为用户日均app使用时长,AB两组各1w个用户,实验时长一个月。 假设检验的目的是验证AB两组最终的差异delta是实验本身带来的差异,而不是抽样造成的差异。基于这个场景,我有两个问题: 1. 两组的差异delta理论上有可能来源于3个地方:用户抽样误差(只抽取了1w个用户,而没有抽取无限多用户);实验本身带来的差异;实验日期抽样误差(只实验了30天,而没有实验无限多天)。一般的AB实验中我们只考虑了前两个因素,那么对于实验日期抽样误差这个因素应该如何考虑? 2. 假设我把全国所有的用户分成AB两组做实验,是否可以将一组内所有用户一天的平均值当作一个样本进行检验?也就是说,如果实验持续30天,那么最终A组有30个样本,B组有30个样本

    作者回复: 你好,对于你的第一个问题: 总结的很好! 对于你说的第三个差异来源:时间,如果真的想严谨的考虑,实践中也是有办法的,就是设置一个长时间的Holdback组,假设通过A/B测试我们发现实验组效果好,在之后做决策时,可以给绝大部分的用户(比如99%)实验组的体验(而不是全部100%用户),这时候一直留一个1%的holdback组(控制组的体验),这样的就可以看出随着时间的推移两者的差异如何变化。 对于你的第二个问题:如果将一组内所有用户一天的平均值当作一个样本,会出现几个问题: 1. 样本量会急剧减小,使得中心极限定理那以满足,统计计算难以展开; 2. 以天为单位可能会出现波动性,比如周中和周末的用户行为不同,给A/B测试造成额外的干扰; 3. 实验单位也不再是用户,这样话没有办法来衡量用户反应相关的指标。

    2021-02-08
    13
  • Kaye
    希望老师推荐一些AB测试的论文

    作者回复: 这两篇KDD的文章不错: https://exp-platform.com/Documents/2014%20experimentersRulesOfThumb.pdf https://exp-platform.com/Documents/2009-ExPpitfalls.pdf

    2020-12-03
    10
  • 何涛(Louis)
    想问问张老师有没有推荐的参考读物或者网站?多谢!

    作者回复: 这里有一些比较好的英文书籍推荐: https://www.alexbirkett.com/ab-testing-books/

    2020-12-03
    5
  • 牛奶
    这其实是均值类变量的特性:当样本量足够大时,均值类变量会趋近于正态分布。这背后的理论基础,就是中心极限定理———这个“样本量”足够大的标准是30个,如果用上面的那个例子,一万个用户一个月内每日的平均使用app时长,这个30指的是要有一万个用户(抽样超过30个)还是说每个用户的数据要超过30个(一个月每天的使用时长,刚好30个)?

    作者回复: 你好,这里指的是每个用户的数据要超过30个,因为我们要算每个用户每日的平均使用时长。

    2021-05-18
    3
  • 蚂蚁内推+v
    老师,直观理解,下载率不应该是一个连续型随机变量吗?为什么会服从二项分布?

    作者回复: 你好,下载率这个指标表征的其实是在大样本量下人们下载的概率,对于单个用户来说下载不下载是一个二元事件,那么对于多个用户来说就是二项分布,因为二项分布的定义就是”n个独立的是/非试验中成功的次数的离散概率分布“。

    2020-12-26
    3
  • Jabin
    老师,之后的实战课程是会把源数据及代码贴出来的吧

    作者回复: 你好,最后一节的实战课程会把代码贴出的,中间的课程会通过案例重点讲解流程和经验。

    2020-12-06
    3
  • Geek_8c33f8
    老师好, 关于“概率类指标,能否使用t检验?”这个问题, 如果核心指标是比例,能都用这个比例指标(A除以B计算后的指标值)再去计算整体的均值?这样理解是不是概率类/比例类指标是不是也可以使用T检验呢

    作者回复: 先说结论:概率类指标在数据量大的情况下也可以使用t检验。 再说原因: 在大样本量的情况下(统计上定义为大于30,现在的大数据时代让我们的数据远远大于这个数值),t检验和z检验几乎是等价的,没有太大区别,所以大数据时代不要太纠结t或者是z。而且根据中心极限定理,这些指标都是近似服从正态分布的。

    2021-03-22
    2
  • Tasty Joy
    在案例中,NP=样本大小*百分之10,为什么是10%呢?案例中哪里可以看出来。P不是代表概率的平均值吗?那么概率的平均值怎么算?

    作者回复: 你好,由下载率的直方图可以看出其为正态分布,并且分布的中心在10%左右,因为正态分布时左右对称的,所以可以得出下载率的平均值为10%.

    2021-02-05
    2
    2
  • 贤者时间
    请问老师: 均值类指标服从正态分布的例子是不是有点问题呢? “我们再用一个社交 App 业务指标的例子,来强化下对正态分布的理解。现在有一个社交 App,我们想要了解用户日均使用时间 t 的概率分布。” 按照我对中心极限定理的理解,这个例子似乎应该这么解释:该APP的全量用户的平均日均使用时长是t,当对全量用户抽样出N个用户,再求其均值T,这个T才符合正态分布,其均值是t。 根据我的经验,app的用户使用时长通常来说不可能是正态分布,通常是幂律分布。。所以想跟老师探讨一下,这个例子的阐述是不是有些问题呢?

    作者回复: 你好,你对中心极限定理的理解没有错,这个例子中的直方图我是用了1万名用户一个月的使用数据画出的,这里面因为是算用户的日均使用时间,所以你可以把每个用户每天的使用时间当做一个数据点,那么现在我们从这些样本中抽样,每个用户其实有30个数据点(一个月),相当于一次抽样,那么一万个用户就相当于抽样1万次,那这一万个用户(抽样)的均值t,也就是用户的日均使用时间,就符合中心极限定理定理了嘛。

    2020-12-22
    6
    2
  • 牛奶
    通过数据分析发现,每分钟平均有 10 个人会看到广告,下载率集中分布在 0-30% 之间。-----这部分内容有些没有明白。虽然说“单个二元事件的结果,只能是发生或者不发生”,然后为了分析需要把数据进行一定程度的聚合,这次分析选择按分钟聚合;然后实际拥有“一个月的用户及下载数据,一个月一共有 43200 分钟,所以一共有 43200 个数据点”,是如何计算出来“每分钟平均有 10 个人会看到广告,下载率集中分布在 0-30% 之间”?尤其是集中在0-30%?不是很懂,希望老师可以辛苦解答

    作者回复: 你好,关于你的几个问题:1. ‘每分钟平均有 10 个人会看到广告’是我在这里直接告诉了结论而省去了数据分析(因为这里重点讲AB测试相关内容,我会省去一些不相关的数据分析),你可以认为是应用题的一个给定条件;2. ‘下载率集中分布在 0-30% 之间’这个是看直方图的横坐标得来的。

    2021-05-19
    1
收起评论
显示
设置
留言
35
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部