04｜确定指标：指标这么多，到底如何来选择？

张博伟

你好，我是博伟。
上节课，我们学习了确定评价指标的几种方法，包括量化产品 / 业务不同阶段的目标，采取定量 + 定性的方法，或者借鉴行业内其他公司的经验等。你也发现了，这些方法的局限性在于只能选出单个评价指标，而且也没有考虑到评价指标的波动性对结果准确度的影响。
今天我们会更进一步，去看看在实际的复杂业务场景中，确定评价指标的方法，以及计算指标的波动性的方法。然后，我们再看看为了确保 A/B 测试结果的可靠性，应该如何去确定护栏指标。
综合多个指标，建立总体评价标准在实际的业务需求中，有时会出现多个目标，同一目标也可能有多个都很重要的评价指标，需要我们把它们都综合起来考虑。对于单个指标，我们可以用上一讲的方法来确定；但如果要综合考虑多个指标时，又要如何考虑呢？
我们先看一个例子。
亚马逊和用户沟通的一个重要渠道就是电子邮件，它有一个专门给用户发送电子邮件的平台，通过两种方式来精准定位用户：
基于用户的历史购买数据来构建用户的个人喜好，通过推荐算法来发邮件给用户做推荐；
亚马逊的编辑团队会人工精选出推荐产品，通过电子邮件发送给用户。
确定了精准用户以后，亚马逊还面临一个问题：要用什么指标来衡量电子邮件的效果呢？
你可能会想到，给用户发送邮件是为了让他们购买，所以邮件产生的收入可以作为评价指标。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了如何综合考虑多个指标来建立总体评价标准（OEC），以及评价指标的波动性对测试结论的影响。通过一个亚马逊电子邮件营销的案例，阐述了如何使用OEC来综合考虑多个指标，并计算指标的波动性。在实际业务场景中，综合多个指标可以更全面地评估业务效果，避免单一指标的局限性。同时，强调了评价指标的波动性对测试结论的影响，指出忽视波动性可能导致错误的测试结论。在确定评价指标时，需要综合考虑多个指标、建立总体评价标准，并考虑指标的波动性是在复杂业务场景中确定评价指标的关键要点。此外，介绍了评价指标的波动性的计算方法，包括使用统计公式和实践经验两种方法。最后，提到了在A/B测试中选取护栏指标的重要性，以保证对业务的大局观和统计上的合理性的掌控。文章内容涉及了如何选取评价指标、评价指标的波动性以及如何选取护栏指标，为读者提供了在复杂业务场景下确定评价指标的关键要点和方法。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《A/B 测试从 0 到 1》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(13)

最新
精选

GEEKBANG_8987898
置顶
我最近刚接触一些ab test，发现marketing相关的测试，很多时候测试组的样本数量要远远大于对照组的，比如：9：1这样，说是希望更多的测试组用户能接收到treatment（比如促销邮件），这个和你说的测试组/对照组比例最好接近1：1似乎有些不一致？
作者回复: 你好，我说的1：1分组是从统计上来说对数据的利用率最大化（具体原因请参考第六章相关内容），至于实践中话有时确实会因为人们觉得treatment一定比control好（可能是根据之前的A/B测试得出），那么这里会把大部分的流量都划分成treatment,只留很小部分control,更多情况下control这部分是为了衡量到底增加了多少incremental而存在的。
2021-03-02

3
皓昊
置顶
老师有几个问题： 1.bootstrapping 方法进行计算波动范围时，是有现成工具吗？具体怎么用呢。 2.护栏指标很重要，但我理解这些都是A/B测试中隐性考虑的因素，更多体现在底层代码的优化和指标监测。那在我们数据分析师实际操作中，护栏指标以什么样的方式在测试中使用呢？ 3.OEC 我理解只是一个综合因素的公式，应该不同业务和行业差异很大，具体在设计这个指标时如何设计公式中各变量前的系数呢？
作者回复: 你好，1. bootstrapping还是要用python或者R来实现，这里各放一个资源： Python: https://github.com/facebookincubator/bootstrapped R: https://www.statmethods.net/advstats/bootstrapping.html 2. 护栏指标保障统计品质和业务品质，统计品质方面就像你说的更多的是工程实施出现了问题，那么作为数据分析师就要去检测这些指标及时发现问题，业务品质呢这里就需要数据分析师熟悉相关业务，能够想到或者通过数据分析得到对业务的潜在负面影响，从而定义这类护栏指标并去检测。 3. 至于确定OEC的系数，可以用相对简单的方法比如按照不同部分的重要度和对业务的影响来定义，或者可以用很复杂的方法比如建立机器学习模型来确定最优解。
2020-12-19
2
10
那时刻
置顶
请问老师，OEC公式中Unsubscribe_lifetime_loss ，代表用户退订邮件带来的预计的损失。为什么每个用户的损失是一样的呢？另外，有多个指标出现的情况下，我们可以把它们结合在一起，建立总体评价标准，也就是 OEC。是把多个指标（归一化，如需要）一起计算OEC？如此的话，公式是什么样子呢？
作者回复: 你好，这里的每个用户的损失取的是平均值，做简化处理，因为我们是计算总体层面的收益和损失。至于你的第二个问题，OEC的公式不是固定的，会根据不同的业务场景和A/B测试的目标来定的，这里面更多的是要靠探索和经验积累，不过一般是要同时考虑到收益和潜在的损失，像亚马逊例子中那样。
2020-12-15
4
4
GEEKBANG_8987898
最近在做这样一个AB TEST，对比发送/不发送促销邮件对GMB/buyer指标的影响，在分好的测试/对照组中，发现初始的GMB/buyer不一致，这样就不能比较了吧？有什么方便的处理方法么？
作者回复: 你好，这种情况的话你要看初始的指标不一致是不是显著不同，如果是的话就不要急着做A/B测试，要先明确是什么原因造成的，这种情况有以下几种可能： 1. 分组不均这个是最常见的原因，可能是因为样本量太小，或者分组机制没有做到完全随机，要查找原因的话可以：A.和工程师一起从实施的流程方面进行检查，看看是不是具体实施层面上两组有偏差或者 bug。B.从不同的维度来分析现有的数据，看看是不是某一个特定维度存在偏差。常用的维度有时间（天）、操作系统、设备类型等。比如从操作系统维度，去看两组中 iOS 和 Android 的用户的比例是否存在偏差，如果是的话那说明原因和操作系统有关。(第7讲中有介绍） 2. 如果排除了分组不均，那么有可能是指标本身波动性太大，这时候就要考虑换个指标啦。
2021-03-02

4
神经蛙
请问老师，如果护栏指标不用在综合评价指标中，可以怎么用呢？
作者回复: 你好！可以单独拿出来检测，作为safety check, 一般来说如果护栏指标有问题，那么即使主要指标显著，那么这个结果也是得再去做深入分析的。因为如果是统计类的护栏指标有问题，那么实验本身就出问题了，结果当然不可信。因为如果是业务类的护栏指标有问题，那么就说明可能会对业务有负面影响，需要深入评估进行取舍。
2021-03-24


Geek_3a3675
老师，想问一下统计公式算置信区间的时候为什么用的是Z分数而不是T分数？这里不是通过样本来算的吗？
作者回复: 你好！在大样本量的情况下（统计上定义为大于30，现在的大数据时代让我们的数据远远大于这个数值），t分布和z分布几乎是等价的，没有太大区别，所以大数据时代不要太纠结t或者是z。可以参看一下资料： https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/t-score-vs-z-score/
2021-03-16


张怡婷
请问老师，用户为试验单位的AB，特征分布需要看哪些呢？以及如何在试验之前就科学快速选取到合适的分组？感觉后验的方式在实操过程中成本还是挺高的
作者回复: 你好，第一个问题：以用户为实验单位，特征分布的话一般会看几大类： 1. 人口统计数据（demographic）：年龄，地点，性别等； 2. 用户与产品/服务的互动情况，比如活跃长度，使用时长等等当然根据不同的A/B测试，这些数据可能有，也可能没有，上述列出的仅供参考，并不是说一定要有。第二个问题：后验的成本是要高一些，在样本量大的情况下，随机分组是实验前科学快速的最常用方法。
2021-02-02


InfoQ_686548eeb0d8
广告相关，人均广告收入做护栏
作者回复: 嗯嗯人均广告收入是个好的护栏指标！
2020-12-29


孙小军
做a/b 测试时，需要保证实验组和对照组的护栏指标相同，这样可以保证评价指标符合长期效益且具有统计合理性。请问老师这样的理解对吗？
作者回复: 嗯嗯对的！护栏指标是保证业务和统计两方面的品质的！
2020-12-28


Geek_dc1bf3
hi，老师，请问计算波动性的公式，和计算观测数据是否显著是一个事情么
2023-08-21归属地：上海



收起评论