A/B 测试从 0 到 1
张博伟
FLAG 资深数据科学家
2349 人已学习
立即订阅
登录后,你可以任选2讲全文学习
推荐试读
换一换
02|统计基础(下):深入理解A/B测试中的假设检验
03|确定目标和假设:好的目标和假设是什么?
05|选取实验单位:什么样的实验单位是合适的?
课程目录
已完结/共 20 讲
开篇词 (1讲)
开篇词|用好A/B测试,你得这么学
统计篇:A/B测试的前提与理论基础 (2讲)
01 | 统计基础(上):系统掌握指标的统计属性
02|统计基础(下):深入理解A/B测试中的假设检验
基础篇:从0到1,带你建立规范的A/B测试流程 (7讲)
导读 | 科学、规范的A/B测试流程,是什么样的?
03|确定目标和假设:好的目标和假设是什么?
04|确定指标:指标这么多,到底如何来选择?
05|选取实验单位:什么样的实验单位是合适的?
06 | 选择实验样本量:样本量越多越好吗?
07| 分析测试结果:你得到的测试结果真的靠谱吗?
08 | 案例串讲:从0开始,搭建一个规范的A/B测试框架
进阶篇:怎么在A/B测试的实践中避坑 (7讲)
09 |测试结果不显著,要怎么改善?
10|常见误区及解决方法(上):多重检验问题和学习效应
11 | 常见误区及解决方法(下):辛普森悖论和实验组/对照组的独立性
12|什么情况下不适合做A/B测试?
13|融会贯通:A/B测试面试必知必会(上)
14|举一反三:A/B测试面试必知必会(下)
15|用R/Shiny,教你制作一个样本量计算器
结束语 (3讲)
结束语|实践是检验真理的唯一标准
结课测试题|这些A/B测试的知识你都掌握了吗?
加餐|试验意识改变决策模式,推动业务增长
A/B 测试从 0 到 1
15
15
1.0x
00:00/00:00
登录|注册
开通超级会员可免费学习本课程,还可解锁海量内容免费学特权。

01 | 统计基础(上):系统掌握指标的统计属性

你好,我是博伟。
在学习、解决技术问题的时候,我们都知道有这么一句话“知其然知其所以然”。那么,A/B 测试的“所以然”是什么呢?在我看来,就是 A/B 测试背后的计算原理,知道 A/B 测试为什么要这么设计,最佳实践中为什么要选择这样的指标、那样的检验方法。
那说到 A/B 测试背后的计算原理,我们首先得知道,A/B 测试的理论基础是假设检验(Hypothesis Testing)。可以说,假设检验,贯穿了 A/B 测试从实验设计到分析测试结果的整个流程。
如果要一句话解释“假设检验”的话,就是选取一种合适的检验方法,去验证在 A/B 测试中我们提出的假设是否正确。现在,你只要知道“假设检验”中,最重要也最核心的是“检验”就可以了,因为选取哪种检验方法,取决于指标的统计属性。
也就是说,理解指标的统计属性,是我们掌握假设检验和 A/B 测试的前提,也是“知其所以然”的第一步。
而至于深入理解并用好“假设检验”的任务,我们就留着下一讲去完成吧。

指标的统计属性,指的是什么?

在实际业务中,我们常用的指标其实就是两类:
均值类的指标,比如用户的平均使用时长、平均购买金额、平均购买频率,等等。
概率类的指标,比如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率),等等。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/1000字
划线
笔记
复制
02|统计基础(下):深入理解A/B测试中的假设检验
03|确定目标和假设:好的目标和假设是什么?
05|选取实验单位:什么样的实验单位是合适的?
11 | 常见误区及解决方法(下):辛普森悖论和实验组/对照组的独立性
13|融会贯通:A/B测试面试必知必会(上)
加餐|试验意识改变决策模式,推动业务增长
开通超级会员免费畅看本课程
开通会员
该文章仅可免费阅读部分内容,如需阅读完整文章,请开通超级会员或单独购买本课程。
登录 后留言

精选留言(25)

  • 老师,如果一个AB实验的评价指标为用户日均app使用时长,AB两组各1w个用户,实验时长一个月。
    假设检验的目的是验证AB两组最终的差异delta是实验本身带来的差异,而不是抽样造成的差异。基于这个场景,我有两个问题:
    1. 两组的差异delta理论上有可能来源于3个地方:用户抽样误差(只抽取了1w个用户,而没有抽取无限多用户);实验本身带来的差异;实验日期抽样误差(只实验了30天,而没有实验无限多天)。一般的AB实验中我们只考虑了前两个因素,那么对于实验日期抽样误差这个因素应该如何考虑?
    2. 假设我把全国所有的用户分成AB两组做实验,是否可以将一组内所有用户一天的平均值当作一个样本进行检验?也就是说,如果实验持续30天,那么最终A组有30个样本,B组有30个样本

    作者回复: 你好,对于你的第一个问题:
    总结的很好!
    对于你说的第三个差异来源:时间,如果真的想严谨的考虑,实践中也是有办法的,就是设置一个长时间的Holdback组,假设通过A/B测试我们发现实验组效果好,在之后做决策时,可以给绝大部分的用户(比如99%)实验组的体验(而不是全部100%用户),这时候一直留一个1%的holdback组(控制组的体验),这样的就可以看出随着时间的推移两者的差异如何变化。

    对于你的第二个问题:如果将一组内所有用户一天的平均值当作一个样本,会出现几个问题:
    1. 样本量会急剧减小,使得中心极限定理那以满足,统计计算难以展开;
    2. 以天为单位可能会出现波动性,比如周中和周末的用户行为不同,给A/B测试造成额外的干扰;
    3. 实验单位也不再是用户,这样话没有办法来衡量用户反应相关的指标。

    2021-02-08
    9
  • KayeArt
    希望老师推荐一些AB测试的论文

    作者回复: 这两篇KDD的文章不错:
    https://exp-platform.com/Documents/2014%20experimentersRulesOfThumb.pdf
    https://exp-platform.com/Documents/2009-ExPpitfalls.pdf

    2020-12-03
    9
  • 何涛(Louis)
    想问问张老师有没有推荐的参考读物或者网站?多谢!

    作者回复: 这里有一些比较好的英文书籍推荐:
    https://www.alexbirkett.com/ab-testing-books/

    2020-12-03
    4
  • Tasty Joy
    在案例中,NP=样本大小*百分之10,为什么是10%呢?案例中哪里可以看出来。P不是代表概率的平均值吗?那么概率的平均值怎么算?

    作者回复: 你好,由下载率的直方图可以看出其为正态分布,并且分布的中心在10%左右,因为正态分布时左右对称的,所以可以得出下载率的平均值为10%.

    2021-02-05
    2
  • Shopee内推码:NTAGxyl
    老师,直观理解,下载率不应该是一个连续型随机变量吗?为什么会服从二项分布?

    作者回复: 你好,下载率这个指标表征的其实是在大样本量下人们下载的概率,对于单个用户来说下载不下载是一个二元事件,那么对于多个用户来说就是二项分布,因为二项分布的定义就是”n个独立的是/非试验中成功的次数的离散概率分布“。

    2020-12-26
    2
  • Jabin
    老师,之后的实战课程是会把源数据及代码贴出来的吧

    作者回复: 你好,最后一节的实战课程会把代码贴出的,中间的课程会通过案例重点讲解流程和经验。

    2020-12-06
    2
  • 贤者时间
    请问老师:
    均值类指标服从正态分布的例子是不是有点问题呢?
    “我们再用一个社交 App 业务指标的例子,来强化下对正态分布的理解。现在有一个社交 App,我们想要了解用户日均使用时间 t 的概率分布。”
    按照我对中心极限定理的理解,这个例子似乎应该这么解释:该APP的全量用户的平均日均使用时长是t,当对全量用户抽样出N个用户,再求其均值T,这个T才符合正态分布,其均值是t。
    根据我的经验,app的用户使用时长通常来说不可能是正态分布,通常是幂律分布。。所以想跟老师探讨一下,这个例子的阐述是不是有些问题呢?

    作者回复: 你好,你对中心极限定理的理解没有错,这个例子中的直方图我是用了1万名用户一个月的使用数据画出的,这里面因为是算用户的日均使用时间,所以你可以把每个用户每天的使用时间当做一个数据点,那么现在我们从这些样本中抽样,每个用户其实有30个数据点(一个月),相当于一次抽样,那么一万个用户就相当于抽样1万次,那这一万个用户(抽样)的均值t,也就是用户的日均使用时间,就符合中心极限定理定理了嘛。

    2020-12-22
    5
    1
  • 不再是入门水平python的小宇
    重新复习了一遍本科的知识,老师讲的很容易懂,通过随机变量引到概率分布,非常生动。我之前对a b试验的理解也仅仅停留在假设检验,哎
    2021-09-15
  • KayeArt
    #Q&A
    广告案例中,每小时的下载数/曝光数是比例,为什么可以认为是概率呢?
    根据“大数定律”,对于独立事件,样本量足够大时,局部频率可以看成是整体概率。
    2021-09-14
  • KayeArt
    广告的例子,dataset
    将每个小时作为一个样本,形成一个一维表:
    | 小时 | 转化率 | 曝光数 | 下载数 |
    | ---- | ---- | ---- | ---- |
    | 第1天 0时-1时 | 1% | 100 | 1 |
    | 第1天 1时-2时 | 10% | 100 | 10 |
    ......
    2021-09-14
  • 何晓虎
    那个点击率的测试,样本量如果是10的话,那么43200这个数字的意义是什么?

    作者回复: 这里只是举例说明‘中心极限定理说的样本量,指的是计算概率的样本量’。

    2021-08-19
  • Td
    老师请问“概率在某种程度上也是平均值”这个应该怎么去理解呢?

    作者回复: 这里下载率可以理解为“看到广告的用户的平均下载量”,比如有10个用户看到广告,其中5个用户通过广告下载了,那么这10个用户的平均下载量就是5/10 = 0.5 = 50%,也就是下载率嘛。

    2021-07-27
  • Leung-鱼蛋
    大学学习的概率课程已经还给老师了😂

    作者回复: 用的时候能拾起来就好!

    2021-07-12
  • 梦倚栏杆
    看着每一个熟悉有陌生的名词:好像还有珀松分布吧,大学时代的统计学全还给老师了,坦白说理论基础还是没看懂。

    作者回复: 也可能是当时学懂了,但是长期不用就忘了,关键是得实践,我也是深有体会。

    2021-06-22
  • Geek_30a04e
    老师,怎么没有视频教学呢,语音对我这种基础性较差的不是很友好

    作者回复: 哈哈可以考虑下

    2021-05-21
  • 牛奶
    “概率的样本量是 10,因为平均每分钟有 10 人看到广告,还没有达到中心极限定理中说的 30 这个阈值”------还有这句话

    首先这个每分钟10个人哪里出现的数据呢?我们拥有的数据应该只有“一个月的用户及下载数据”(可以看到是否下载或者下载时间),如何计算出来每分钟是有10个人看到呢?使用所有用户/分钟数?
    其次,没有理解这里的阈值问题,为什么样本量是10?
    2021-05-19
    2
  • 牛奶
    通过数据分析发现,每分钟平均有 10 个人会看到广告,下载率集中分布在 0-30% 之间。-----这部分内容有些没有明白。虽然说“单个二元事件的结果,只能是发生或者不发生”,然后为了分析需要把数据进行一定程度的聚合,这次分析选择按分钟聚合;然后实际拥有“一个月的用户及下载数据,一个月一共有 43200 分钟,所以一共有 43200 个数据点”,是如何计算出来“每分钟平均有 10 个人会看到广告,下载率集中分布在 0-30% 之间”?尤其是集中在0-30%?不是很懂,希望老师可以辛苦解答

    作者回复: 你好,关于你的几个问题:1. ‘每分钟平均有 10 个人会看到广告’是我在这里直接告诉了结论而省去了数据分析(因为这里重点讲AB测试相关内容,我会省去一些不相关的数据分析),你可以认为是应用题的一个给定条件;2. ‘下载率集中分布在 0-30% 之间’这个是看直方图的横坐标得来的。

    2021-05-19
  • 牛奶
    这其实是均值类变量的特性:当样本量足够大时,均值类变量会趋近于正态分布。这背后的理论基础,就是中心极限定理———这个“样本量”足够大的标准是30个,如果用上面的那个例子,一万个用户一个月内每日的平均使用app时长,这个30指的是要有一万个用户(抽样超过30个)还是说每个用户的数据要超过30个(一个月每天的使用时长,刚好30个)?

    作者回复: 你好,这里指的是每个用户的数据要超过30个,因为我们要算每个用户每日的平均使用时长。

    2021-05-18
  • Geek_8c33f8
    老师好,
    关于“概率类指标,能否使用t检验?”这个问题,
    如果核心指标是比例,能都用这个比例指标(A除以B计算后的指标值)再去计算整体的均值?这样理解是不是概率类/比例类指标是不是也可以使用T检验呢

    作者回复: 先说结论:概率类指标在数据量大的情况下也可以使用t检验。
    再说原因:
    在大样本量的情况下(统计上定义为大于30,现在的大数据时代让我们的数据远远大于这个数值),t检验和z检验几乎是等价的,没有太大区别,所以大数据时代不要太纠结t或者是z。而且根据中心极限定理,这些指标都是近似服从正态分布的。

    2021-03-22
  • 404
    真的是30呀,我以为是少了一个万字
    2021-02-24
收起评论
25
返回
顶部