05｜选取实验单位：什么样的实验单位是合适的？

张博伟

你好，我是博伟。
上节课我们确定了实验的目标、假设以及各类指标，那么今天我们就来讲一讲 A/B 测试的第三步：如何选取合适的实验单位。
前面我提到，A/B 测试的本质就是控制变量实验。既然是实验，那就要有实验单位。毕竟，只有确定了实验单位，我们才能在这个单位层面进行合理的样本分配（Assignment），从而决定哪些样本在实验组（Treatment/Test Group），哪些样本在对照组（Control Group）。
谈到实验单位，你可能会问，这有什么难理解的，实验单位不就是用户吗？
其实，这是一个非常常见的认知误区。除了测试系统的表现外，在绝大部分情况下，准确地说，实验单位都是用户的行为。因为我们在产品、营销、业务上所做的调整，本质上都是为了观察用户的行为是否会有相应的变化。
那么问题就来了，很多单位都可以表征用户的行为。那到底是以用户为单位，以用户的每次浏览、访问为单位，还是以用户浏览的每个页面为单位呢？
这节课，我们就来学习下常用的实验单位有哪些，以及实践中选择实验单位的三大原则。
实验单位有哪些？虽然可以表征用户行为的实验单位有很多，但综合来看，我们可以从用户层面、访问层面和页面层面这三个维度来分别学习。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

A/B测试中选择合适的实验单位至关重要。实验单位的选择应考虑用户体验的连贯性、实验单位与评价指标单位的一致性以及样本数量。在实践中，大部分实验都以用户为最小单位，特别是对于用户可见的变化。若需要更多样本量且变化不易被用户察觉，可以考虑使用比用户颗粒度更细的访问或页面作为实验单位，但仍需保持评价指标与实验单位的一致性。文章通过具体案例和三大原则，详细介绍了如何选择合适的实验单位，以及在实践中需要考虑的主要因素。这些原则和经验可以帮助读者在A/B测试中做出正确的判断，提高实验结果的准确性和可靠性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《A/B 测试从 0 到 1》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(11)

最新
精选

xiaomin
置顶
请问老师，以用户层面做AB实验，实验持续多天，那用户多天的行为是要累积起来比较吗？还是可以以一人天作为一个样本？此时用户分组是不变的，但以一人天做样本样本量会更多一些，不知道这种做法是否有问题？
作者回复: 你好，如果在用户层面上做实验，实验持续多天，每个用户的行为是要累积起来比较的，不能按照user/day这种结合做为单位，你的前提是用户层面所以我假设你的评价指标也是用户层面，在这个前提下每个user/day这种结合其实是不独立的，昨天的用户A和今天的用户A都是用户A的行为。
2020-12-20
3
6
那时刻
我们一般都采用用户为实验单元，为了保持老用户体验的连贯性，大都在新用户做AB测试，然后把效果好的体验推广到老用户。不知老师如何处理这种情况呢？也就是保持老用户体验连贯性。因为使用新用户，会遇到老师提到样本量不足，需要更多的时间做测试。请问老师，这个测试时间如何来把控呢？我们目前采用的是尽量拉长测试时间。
作者回复: 你好，这个具体要看实验中改变的什么，对用户的体验影响到底有多大，只用新用户做实验的可能会有bias,因为新用户和老用户对变化的反应可能是不同的，一般只要不是特别显眼的变化都可以在全体用户上来做的，如果变化比较显眼比较大的话，可以先从总体流量的一小部分来做实验，然后慢慢扩大流量，在扩张的过程中就可以监控这个变化有没有什么明显的负面效果，及时发现问题即使解决。至于你的第二个问题，可以到时候看一下第6节课如何计算样本量和第9节课中如何提高测试的Power.
2020-12-17

3
皓昊
老师好,有个问题: "如果用 A/B 测试来检测音乐 App 推送新专辑的效果，评价指标为用户的新专辑收听率（收听新专辑的用户数量 / 收到推送的用户数量）"" 案例中评价收听率的A/B测试怎么做呢?我理解实验组(推送新专辑)新专辑收听率肯定大于对照组(他都没有新专辑可以听).
作者回复: 你好，新专辑出来后所有用户（实验组和对照组）都可以收听到的，因为大家都是付费用户肯定享受到的权益是一样的，两组不同的是我们会对实验组的用户发送手机推送通知，对照组则不发推送（但是对照组用户进入到App中依然可以听这个新专辑），从而比较两组的收听率，来看看推送是否有效果的。
2021-01-05

2
西西
想不出来visit level和page level为实验单元的实验有什么样合适的案例，page里文案或者按钮颜色的改变算用户可察觉吗？
作者回复: 你好，很多算法（比如推荐算法，排序算法等）的改进是以visit level和page level为实验单位的，因为用户无法明显察觉；page里文案或者按钮颜色的改变用户一般是可以察觉的，推荐用户层面的单位
2020-12-21

2
孙忭SALLY
"在 A/B 测试中，样本数量越多，实验结果就越准确。"这句话不太理解；样本量越大，不是会导致实验结果越敏感吗？这里是不是要结合beta计算最小样本量来看p值比较好啊
作者回复: 你好，样本量越大实验结果越准确是指可以减少随机性带来的干扰。而且这里的大和小都是相对的，并不是无限制的，现实中最常见的问题是样本量不足所带来的随机性干扰和实验不敏感，因为业务总是希望越快越好。
2021-07-21

1
张浩_house
保证用户体验的连贯性，这种是不是需要后端和实验平台保证：当某个用户请求某个命中实验的情况下，多次访问都要保持是命中状态了？还有就是通过一个产品同时在做许多个AB实验，会不会实验之间相互影响怎么保证实验的准备性了？
作者回复: 你好，1. 没错，如果实验单位时用户的话是可以保证每次访问都是在同一组的；2. 一个产品做多个实验的情况下，最简单的就是用不同的流量做不同的实验，这样实验之间一般不会有影响。
2021-01-06

1
Han
你好，老师：旅游OTA行业，想看下不同定价策略对应转化率的影响，不同的定价策略是按照酒店配置的。所以分组的话应该是以酒店为单位了？实验组是用新的定价策略的酒店，指标是是酒店的转化率。假设实验30天，那样本是酒店/天作为一个样本单位？还是30天一个酒店作为一个样本单位？
作者回复: 你好，酒店数量充足的情况下建议用30天一个酒店作为一个样本单位，因为30天的跨度可能会存在指标的周期性变化，比如周中/周末的不同，如果以酒店/天作为一个样本单位的话，即使是同一家酒店也有可能被同时分到实验组和对照组。
2021-01-01
2
1
金hb.Ryan 冷空氣駕到
原先应该就是用用户或者cookie来做A/B。有没有场景是用访问层或者页面层来做A/B分组的？
作者回复: 你好，测试用户不易察觉的的变化很多都使用访问或者页面层面的，比如各种算法的改进，这样的好处是样本量比用户层面的更大。
2020-12-19
2
1
DA_Team
请问关于实验单位有具体的文献吗
作者回复: 可以参考这些： https://ianwhitestone.work/choosing-randomization-unit/ https://www.quora.com/A-B-testing-When-are-users-not-the-right-randomization-unit-for-an-experiment-What-are-the-alternatives
2021-06-27


Geek_344c05
老师你好我想问下关于login/cookie 如果用户两次看测试的页面一次login 一次没有login (或者两次都没有login) 且用户清除cookie（或者用户直接选择浏览器private mode，再或者两次用不一样的设备且browser不sign in) 这些情况有什么办法确认用户是否被分别放到control/test了呢
作者回复: 你好，如果没有用户ID或者cookie的话，其实也有一些近似的办法可以尝试，但在实际操作中很难确认用户，因为准确度会大大下降，具体的可以参考这里： https://stackoverflow.com/questions/15966812/user-recognition-without-cookies-or-local-storage
2021-06-21



收起评论