• paradox
    2018-08-16
    老师
    x.T 就变成了 N×(n+1) ,每一行都是一个样本,那么x.T*β不也是一个样本作为一个整体么?
    实在想不通,谢谢指点

    作者回复: 正因为一个样本就是一个整体,所以要放在属性形成的空间里观察。

    
     1
  • Geek_59
    2020-02-05
    极客时间
    21天打卡行动 49/21
    <<机器学习40讲/11>>实验设计
    今日所学:
    1,线性模型最大的优点不是便于计算,而是便于解释。
    2,计算高维空间上的输出结果在由所有属性共同定义的低维空间上的正交投影(orthogonal projection)。
    3,足球数据网站 WhoScored
    4,线性回归的一个特例,它特殊在输出的因变量只与单个的输入自变量存在线性关系,这种模型被称为简单线性回归(simple linear regression);
    5,一般的情况是因变量由多个自变量共同决定,对这些自变量同时建模就是多元线性回归(multivariate linear regression)。
    6,模型虽然具有足够的精确性,却缺乏关于精确性的合理解释。
    7,机器学习只看重结果
    重点:
    线性回归拟合的是高维空间上的输出结果在由所有属性共同定义的低维空间上的正交投影;
    简单线性回归的统计意义可以用 t 统计量和 p 值等指标描述;
    多元线性回归的统计意义可以用 F 统计量描述,但回归结果可能缺乏对模型的解释能力;
    机器学习与统计学的区别在于机器学习重于预测,统计学则重于解释。
    展开
    
    
  • 王大伟
    2018-09-27
    请问老师,标准误是如何计算的?

    作者回复: 样本的标准误约等于样本真正的标准差除以根号n,也就是样本容量的平方根。

    
    
  • BGu
    2018-08-08
    您好,您在多元回归例子中看了F stats 的数值大小,但是否应该用f stats的p值得出结论?

    作者回复: 应该看,但我认为当F本身已经很小时,再看F的p值没什么意义。

    
    
  • 林彦
    2018-07-02
    估计出的系数是观察数据的统计值。在做了数据分布的假设后,有较大的概率这些系数能让某个特定赛季的观测到的真实数据的某种误差最小,但系数并不是一组完全确定不变的值,它会收到训练数据的影响。(1)由线性回归假设得到的估计值和真实值之间的误差在不同赛季的数据是可变的,为了使某个赛季的的计算误差最小,计算出来的系数会不同;(2)不同赛季的数据中的噪声是不同的,也会影响计算出来的最优系数。

    如果文中列出的统计值在不同赛季的数据集上表现都比较好,即期望的计算估计值发生的概率较大,并且估计出的系数的上下置信区间重合的比例较高,我的理解是这个估计出的系数的准确性比较好,反之这个系数的准确性不太理想。

    作者回复: 关键是你说的(2),也就是噪声的问题。
    一般的假设是观测结果是数据和噪声的叠加,每个数据集上的噪声都不一样,所以不同数据集上计算出的结果大差不差,但都是在真实值附近波动,不会和真实值吻合,这体现的就是前面所说的“样本内误差”的思想。
    但长远来看,如果估计量本身是无偏的,那么在统计意义上,估计值就是准确的,不存在系统误差。在不同的数据集上估计,再取平均,估计的次数越多,均值就会越接近真值。
    但是在这个例子里,结果的不同也不全是噪声的原因。毕竟每个赛季有升降级的球队,每个球队的人员也会有变化,可能不同赛季的数据不满足同分布的条件。

    
    
  • itzzy
    2018-06-28
    老师github上代码能加些注释吗?感谢!

    作者回复: 我这个编辑器不能输入汉字,所以索性英文注释也没加。所有代码基本上都是导入数据-调用功能类-画图的流程,如果哪里有问题可以把数据打印出来,或者查阅sklearn的文档。

    
    
  • 我心飞扬
    2018-06-28
    当输出被写成 wTxwTx{\bf w} ^ T {\bf ...

    极客时间版权所有: https://time.geekbang.org/column/article/9789?device=geekTime.android

    不懂,误差一直分布在不同变量上的啊

    作者回复: 一旦模型参数定了,误差也就固定了,关键是怎么分解它。w^T x相当于把误差分散到样本上,误差是每个样本到计算出的超平面的距离;x^T \beta相当于把误差分散到属性上,在计算出来的超平面上做分解。

    
    
我们在线,来聊聊吧