作者回复: 你好,如果在用户层面上做实验,实验持续多天,每个用户的行为是要累积起来比较的,不能按照user/day这种结合做为单位,你的前提是用户层面所以我假设你的评价指标也是用户层面,在这个前提下每个user/day这种结合其实是不独立的,昨天的用户A和今天的用户A都是用户A的行为。
作者回复: 你好,这个具体要看实验中改变的什么,对用户的体验影响到底有多大,只用新用户做实验的可能会有bias,因为新用户和老用户对变化的反应可能是不同的,一般只要不是特别显眼的变化都可以在全体用户上来做的,如果变化比较显眼比较大的话,可以先从总体流量的一小部分来做实验,然后慢慢扩大流量,在扩张的过程中就可以监控这个变化有没有什么明显的负面效果,及时发现问题即使解决。 至于你的第二个问题,可以到时候看一下第6节课如何计算样本量和第9节课中如何提高测试的Power.
作者回复: 你好,新专辑出来后所有用户(实验组和对照组)都可以收听到的,因为大家都是付费用户肯定享受到的权益是一样的,两组不同的是我们会对实验组的用户发送手机推送通知,对照组则不发推送(但是对照组用户进入到App中依然可以听这个新专辑),从而比较两组的收听率,来看看推送是否有效果的。
作者回复: 你好,很多算法(比如推荐算法,排序算法等)的改进是以visit level和page level为实验单位的,因为用户无法明显察觉;page里文案或者按钮颜色的改变用户一般是可以察觉的,推荐用户层面的单位
作者回复: 你好,样本量越大实验结果越准确是指可以减少随机性带来的干扰。而且这里的大和小都是相对的,并不是无限制的,现实中最常见的问题是样本量不足所带来的随机性干扰和实验不敏感,因为业务总是希望越快越好。
作者回复: 你好,1. 没错,如果实验单位时用户的话是可以保证每次访问都是在同一组的;2. 一个产品做多个实验的情况下,最简单的就是用不同的流量做不同的实验,这样实验之间一般不会有影响。
作者回复: 你好,酒店数量充足的情况下建议用30天一个酒店作为一个样本单位,因为30天的跨度可能会存在指标的周期性变化,比如周中/周末的不同,如果以酒店/天 作为一个样本单位的话,即使是同一家酒店也有可能被同时分到实验组和对照组。
作者回复: 你好,测试用户不易察觉的的变化很多都使用访问或者页面层面的,比如各种算法的改进,这样的好处是样本量比用户层面的更大。
作者回复: 可以参考这些: https://ianwhitestone.work/choosing-randomization-unit/ https://www.quora.com/A-B-testing-When-are-users-not-the-right-randomization-unit-for-an-experiment-What-are-the-alternatives
作者回复: 你好,如果没有用户ID或者cookie的话,其实也有一些近似的办法可以尝试,但在实际操作中很难确认用户,因为准确度会大大下降,具体的可以参考这里: https://stackoverflow.com/questions/15966812/user-recognition-without-cookies-or-local-storage