极客视点
极客时间编辑部
极客时间编辑部
113243 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/05:49
登录|注册

如何设计一个A/B Test?

讲述:丁婵大小:7.98M时长:05:49
你好,欢迎收听极客视点。
A/B Test 实验一般有 2 个目的,一是判断 A 方案和 B 方案哪个更好;二是计算收益,如对收益的量化、计算 ROI(投资回报率)等。人们往往对第一个目的比较熟悉,第二个目的则是对数据分析师和管理者非常重要。近日,腾讯平台与内容事业群的数据分析师刘健阁在公众号“腾讯技术工程(Tencent_TEG)”发文,分享了设计一个 A/B Test 的方法与步骤,以下为重点内容。
对于一般的 A/B Test 实验,其本质就是把平台的流量均匀分为几个组,每个组添加不同的策略,然后对比这几个组的用户数据指标如留存、人均观看时长、基础互动率等等,最终选择一个最好的组上线。
实验的基本步骤一般是:流量分配 -> 实验效果 -> 实验结果。

流量分配

实验设计时有两个目标:
希望尽快得到实验结论,尽快决策。
希望收益最大化,用户体验影响最小。
因此经常需要在流量分配时有所权衡,一般有以下几种情况:
不影响用户体验:如 UI 实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论。
不确定性较强的实验:如产品新功能上线,一般需要小流量实验,尽量降低对用户体验的影响,在允许的时间内得到结论。
希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估 ROI。
根据实验的预期结果、大盘用户量,确定实验所需最小流量,可以通过一个网站专门计算所需样本量:
以次日留存率为例,目前大盘次日留存率 80%,预期实验能够提升 0.2pp,这里的留存率可以转换为点击率、渗透率等等,只要是比例值就可以,如果估不准,为了保证实验能够得到结果,此处可低估,不可高估,也就是 0.2pp 是预期能够提升的最小值。
网站计算,最少流量实验组的样本量是 63W。
如果每天只有 5W 的用户可用于实验,63/ 5 = 13 天,那么至少 13 天才能够得到实验结论。

实验效果

以一个较为复杂的运营活动实验为例,活动有方案 1、方案 2,同时为了量化 ROI,对照组没有运营活动。
现在需要回答几个问题:
方案 1 和方案 2,哪个效果更好?
哪个 ROI 更高?
长期来看哪个更好?
不同群体有差异吗?

方案 1 和方案 2,哪个效果更好?

还是要运用假设检验,对于留存率、渗透率等漏斗类指标,采用卡方检验
对于人均时长类等均值类指标,采用 t 检验
通过上述假设检验,如果结论置信,就能够得到方案 1 和方案 2 哪项指标更好(有显著性差异), 对于不置信的结论,尽管方案 1 和方案 2 的指标可能略有差异,但也可能是数据正常波动产生。

哪个 ROI 更高?

对于 ROI 的计算,每个实验组的成本可以直接计算,而收益方面,就要和对照组相比较。假定以总日活跃天数即 DAU 按日累计的求和作为收益指标,需要假设不做运营活动,DAU 是多少。这可以通过对照组计算,即:
实验组假设不做活动日活跃天数 = 对照组日活跃天数 * (实验组流量 / 对照组流量)
实验组收益 = 实验组日活跃天数 - 实验组假设不做活动日活跃天数
这样就可以量化出每个方案的 ROI。

长期来看哪个方案更好?

在实验上线前期,用户因为新鲜感驱使,方案效果可能都不错,因此在做评估时,还需要观测实验在稳定期的指标。

不同用户群体有差异吗?

很多情况下,对新用户和年轻人来说,可能实验组的效果更好,对老用户和中年人来说。数据分析师在分析实验结论时,有必要关注用户群体的差异。

实验结果

实验结束后需要:
反馈实验结论,包括直接效果(渗透、留存、人均时长等)和 ROI。
充分利用实验数据,进一步探索分析不同用户群体、不同场景下的差异,提出探索性分析。
对于发现的新现象,进一步提出假设,进行实验论证。
另外,对于长线业务,可能同时有数十个实验同时进行,不但需要对比每项小迭代的差异,还要对比专项对大盘的贡献量、部门整体对大盘的贡献量,这就运用到了实验的层域管理模型。
对比每个产品细节迭代的结果。
对比每个专项在一个阶段的贡献。
对比整个项目在一个阶段的贡献。
以上就是今天的内容,希望对你有所帮助。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • 阿基米德
    这个最小流量的计算原理是什么?可以详细说说吗
    2
  • 小斧
    不影响用户体验:如 UI 实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论。 不确定性较强的实验:如产品新功能上线,一般需要小流量实验,尽量降低对用户体验的影响,在允许的时间内得到结论。 希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估 ROI。
收起评论
大纲
固定大纲
流量分配
实验效果
方案 1 和方案 2,哪个效果更好?
哪个 ROI 更高?
长期来看哪个方案更好?
不同用户群体有差异吗?
实验结果
显示
设置
留言
2
收藏
99+
沉浸
阅读
分享
手机端
快捷键
回顶部