极客时间-轻松学习，高效学习-极客邦

强哥

2019-03-01

我们这面的ab test计算显著性用的是t检验，不知道跟f检验的区别是什么？对于非参数检验的方法可以用bootstraping吧！分析师对这方面比较有研究

作者回复: t检验可以用pairwise的t检验，一般用于两组对比，而f检验可以进行多组（多个水平）的检验



 3
动摇的小指南针

2019-05-26

方差检验的前提是符合正态分布，那么针对用户转化率算法a和b而言，怎么理解这种分布呢，是指在某种用户特征分类的x坐标上，转化效果y坐标符合正态分布吗？

作者回复: 是的，可以进行采样数据可视化来初版判断



 2
叮当猫

2019-04-15

请问F检验临界值表是怎么计算出来的？

作者回复: 这个问题比较复杂，简单的来说，基于一些假设我们可以画出在不同的自由度之下，不同的F值曲线。和正态分布类似，根据这个曲线，我们可以确定某个α的值，让F曲线在α值右侧的面积小于0.05或者0.01等等。



 1
mickey

2019-02-26

算法a所导致的平均转化率要比算法b的相对高出约2% 是怎么计算出来的？

作者回复: (a均值-b均值) / (b均值)，是相对百分比



 1
Paul Shan

2019-09-17

F值反应了不同样本的差异是否由系统因素引起，而非采样的随机性引起的参数。
F值可以由样本的观察值计算得到。




mickey

2019-02-26

请问，显著性水平α为什么要取0.05？

作者回复: 这是个好问题，0.05是业界的常见标准，约定俗成。也不一定要取0.05，0.1或者是0.02，0.01，只要不是太大都可以。至于多“大”算“大”，看你愿意接受偶然性的程度，没有明显的界定，当然0.3，0.5这种就肯定太大了。




yaya

2019-02-25

笔记：两组样本的差异可能是由
1.采样造成的差异
2.数据分布不同造成的差异
如果要判断更多的是由哪种差异造成的，可以计算他们的比值。
采样的差异计算各个数据到每个分布中心的距离和比如对第j水平来说，就是数据到j水平的距离，所有采样的差异就是所有水平的差异之和
分布造成的差异计算，就是各水平均值到所有均值的差异和
这两个差异我能理解，但是他们对应的量纲应该是不同的，就是他们不是同一基准下的差异但是为什么引入自由度就可以了呢？采样差异的自由度计算为什么要保证各水平均值不变，我没能理解

展开

作者回复: 量纲在物理学里用得比较多，我的理解是它代表了不同的含义，比如这里代表转化率的单位。假设转化率的定义是#click/#pageview，那么这里的两个水平的量纲都是这种次数的比例，量纲应该是相同的。

对于自由度的计算，如果平均值发生了变化，那么方差就要重新计算了。



