11 | 基础线性回归：一元与多元

王天一



该思维导图由 AI 生成，仅供参考

从今天开始，专栏将进入统计机器学习模块。虽然统计机器学习中千姿百态的模型让人眼花缭乱，但究其本原，它们都来源于最原始的线性回归（linear regression）。
在我看来，线性模型最大的优点不是便于计算，而是便于解释。它能以简洁明了的方式清晰体现出输入的变化如何导致输出的变化。正所谓“一生二，二生三，三生万物”，将不同的改进方式融入线性模型的基本思想中，就可以得到各种巧夺天工的复杂方法。
在第一季“人工智能基础课”专栏中，我介绍了线性回归的原理，证明了当噪声满足正态分布时，基于最小二乘法（least squares）的线性回归和最大似然估计是等价的。
《机器学习 | 简约而不简单：线性回归》
这次我们换个角度，来看看最小二乘法的几何意义。之前，线性回归的数学表达式被写成 f(x)=wTx=∑i=0n​wi​⋅xi​。但在讨论几何意义时，这个表达式要被改写成
f(x)=1⋅β0​+j=1∑n​xj​⋅βj​=xTβ
可别小看这个简单的写法变化，从列向量 x 到行向量 xT 的改变就像矩阵的左乘和右乘一样具有不同的意义。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

线性回归在数据分析和机器学习中扮演着重要角色，本文深入探讨了线性回归的几何意义以及其在实际数据分析中的应用。通过对最小二乘法的几何解释，阐述了在高维空间中的输出结果在低维空间上的正交投影。文章以世界杯数据为例，验证了球员评分与球队成绩之间的关系，并解释了线性回归模型参数的估计值、标准误、置信区间等统计特性。此外，还介绍了简单线性回归和多元线性回归的拟合结果，并探讨了统计学和机器学习在认识论上的差异。总的来说，本文通过生动的例子和深入浅出的方式，阐述了线性回归的基本原理和实际应用，对读者快速了解线性回归的技术特点具有一定的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(11)

最新
精选

paradox
老师 x.T 就变成了 N×(n+1) ，每一行都是一个样本，那么x.T*β不也是一个样本作为一个整体么？实在想不通，谢谢指点
作者回复: 正因为一个样本就是一个整体，所以要放在属性形成的空间里观察。
2018-08-16

2
林彦
估计出的系数是观察数据的统计值。在做了数据分布的假设后，有较大的概率这些系数能让某个特定赛季的观测到的真实数据的某种误差最小，但系数并不是一组完全确定不变的值，它会收到训练数据的影响。(1)由线性回归假设得到的估计值和真实值之间的误差在不同赛季的数据是可变的，为了使某个赛季的的计算误差最小，计算出来的系数会不同；(2)不同赛季的数据中的噪声是不同的，也会影响计算出来的最优系数。如果文中列出的统计值在不同赛季的数据集上表现都比较好，即期望的计算估计值发生的概率较大，并且估计出的系数的上下置信区间重合的比例较高，我的理解是这个估计出的系数的准确性比较好，反之这个系数的准确性不太理想。
作者回复: 关键是你说的(2)，也就是噪声的问题。一般的假设是观测结果是数据和噪声的叠加，每个数据集上的噪声都不一样，所以不同数据集上计算出的结果大差不差，但都是在真实值附近波动，不会和真实值吻合，这体现的就是前面所说的“样本内误差”的思想。但长远来看，如果估计量本身是无偏的，那么在统计意义上，估计值就是准确的，不存在系统误差。在不同的数据集上估计，再取平均，估计的次数越多，均值就会越接近真值。但是在这个例子里，结果的不同也不全是噪声的原因。毕竟每个赛季有升降级的球队，每个球队的人员也会有变化，可能不同赛季的数据不满足同分布的条件。
2018-07-02

2
王大伟
请问老师，标准误是如何计算的？
作者回复: 样本的标准误约等于样本真正的标准差除以根号n，也就是样本容量的平方根。
2018-09-27


BGu
您好，您在多元回归例子中看了F stats 的数值大小，但是否应该用f stats的p值得出结论？
作者回复: 应该看，但我认为当F本身已经很小时，再看F的p值没什么意义。
2018-08-08


itzzy
老师github上代码能加些注释吗？感谢！
作者回复: 我这个编辑器不能输入汉字，所以索性英文注释也没加。所有代码基本上都是导入数据-调用功能类-画图的流程，如果哪里有问题可以把数据打印出来，或者查阅sklearn的文档。
2018-06-28


我心飞扬
当输出被写成 wTxwTx{\bf w} ^ T {\bf ... 极客时间版权所有: https://time.geekbang.org/column/article/9789?device=geekTime.android 不懂，误差一直分布在不同变量上的啊
作者回复: 一旦模型参数定了，误差也就固定了，关键是怎么分解它。w^T x相当于把误差分散到样本上，误差是每个样本到计算出的超平面的距离；x^T \beta相当于把误差分散到属性上，在计算出来的超平面上做分解。
2018-06-28


子非鱼
老师。你讲的F统计量的看法跟我在统计学中学的不一样。统计学中教我们的不是直接看大小，而是对比相应的显著性水平和样本自由度产生的临界值。也就是看F统计量的p值是否小于我们拟定的显著性水平，这与我所学相悖，产生疑惑。望指教
2020-06-15

2
特种流氓
老师虽然统计机器学习中千姿百态的模型让人眼花缭乱，但究其本原它们都来源于最原始的线性回归这个怎么理解呢
2021-02-09
1

建强
个人理解：系数的准确性是相对的，不同的样本数据构造出的模型不一致，系数应该也是不一样的，系数的准确性应该只是相对于构造模型的样本而言是准确的，但不同的样本构造出的模型不可能是完全一致的，虽然这些样本可能满足同一分布，但拟合过程中受噪声影响，不同的样本所受的噪声影响也不一致，因此，模型的误差也是不一样的，所以系数只能相对于构造模型的样本来说是准确的。以上是个人的一点肤浅理解，请老师指正。
2021-01-24


Geek_e1bb7a
王老师，我对于你这篇的分享不以为然。因为你这选择的是球员评分与球队胜率之间的关系，但是球员的当场得分是与球队当场的胜负紧密关联的，也就是说你做了这么多的机器学习，可能我只需要做个胜利队伍球员平均分和失败队伍的平均分就能完美解释做了这么多机器学习之后的出的结论了。而且分析出来的相关度比较高的前锋和后卫两个环节不就正对应着得分和失球么？这当然直接影响到当场比赛的结果了，所以我觉得算了这么多内容反而说明了这个评分系统只是对当场比赛的一个补充说明，您本文的这套计算逻辑无法佐证这套体系的靠谱程度
2020-05-28



收起评论