作者回复: 正因为一个样本就是一个整体,所以要放在属性形成的空间里观察。
作者回复: 样本的标准误约等于样本真正的标准差除以根号n,也就是样本容量的平方根。
作者回复: 应该看,但我认为当F本身已经很小时,再看F的p值没什么意义。
作者回复: 关键是你说的(2),也就是噪声的问题。
一般的假设是观测结果是数据和噪声的叠加,每个数据集上的噪声都不一样,所以不同数据集上计算出的结果大差不差,但都是在真实值附近波动,不会和真实值吻合,这体现的就是前面所说的“样本内误差”的思想。
但长远来看,如果估计量本身是无偏的,那么在统计意义上,估计值就是准确的,不存在系统误差。在不同的数据集上估计,再取平均,估计的次数越多,均值就会越接近真值。
但是在这个例子里,结果的不同也不全是噪声的原因。毕竟每个赛季有升降级的球队,每个球队的人员也会有变化,可能不同赛季的数据不满足同分布的条件。
作者回复: 我这个编辑器不能输入汉字,所以索性英文注释也没加。所有代码基本上都是导入数据-调用功能类-画图的流程,如果哪里有问题可以把数据打印出来,或者查阅sklearn的文档。
作者回复: 一旦模型参数定了,误差也就固定了,关键是怎么分解它。w^T x相当于把误差分散到样本上,误差是每个样本到计算出的超平面的距离;x^T \beta相当于把误差分散到属性上,在计算出来的超平面上做分解。