08 机器学习 | 简约而不简单：线性回归

王天一



该思维导图由 AI 生成，仅供参考

数学中的线性模型可谓“简约而不简单”：它既能体现出重要的基本思想，又能构造出功能更加强大的非线性模型。在机器学习领域，线性回归就是这样一类基本的任务，它应用了一系列影响深远的数学工具。
在数理统计中，回归分析是确定多种变量间相互依赖的定量关系的方法。线性回归假设输出变量是若干输入变量的线性组合，并根据这一关系求解线性组合中的最优系数。在众多回归分析的方法里，线性回归模型最易于拟合，其估计结果的统计特性也更容易确定，因而得到广泛应用。而在机器学习中，回归问题隐含了输入变量和输出变量均可连续取值的前提，因而利用线性回归模型可以对任意输入给出对输出的估计。
1875 年，从事遗传问题研究的英国统计学家弗朗西斯·高尔顿正在寻找父代与子代身高之间的关系。在分析了 1078 对父子的身高数据后，他发现这些数据的散点图大致呈直线状态，即父亲的身高和儿子的身高呈正相关关系。而在正相关关系背后还隐藏着另外一个现象：矮个子父亲的儿子更可能比父亲高；而高个子父亲的儿子更可能比父亲矮。
受表哥查尔斯·达尔文的影响，高尔顿将这种现象称为“回归效应”，即大自然将人类身高的分布约束在相对稳定而不产生两极分化的整体水平，并给出了历史上第一个线性回归的表达式：y = 0.516x + 33.73，式中的 y 和 x 分别代表以英寸为单位的子代和父代的身高。
高尔顿的思想在今天的机器学习中依然保持着旺盛的生命力。假定一个实例可以用列向量 x=(x1​;x2​;⋯,xn​) 表示，每个 xi​ 代表了实例在第 i 个属性上的取值，线性回归的作用就是习得一组参数 wi​,i=0,1,⋯,n，使预测输出可以表示为以这组参数为权重的实例属性的线性组合。如果引入常量 x0​=1，线性回归试图学习的模型就是
f(x)=wTx=i=0∑n​wi​⋅xi​
当实例只有一个属性时，输入和输出之间的关系就是二维平面上的一条直线；当实例的属性数目较多时，线性回归得到的就是 n+1 维空间上的一个超平面，对应一个维度等于 n 的线性子空间。
在训练集上确定系数 wi​ 时，预测输出 f(x) 和真实输出 y 之间的误差是关注的核心指标。在线性回归中，这一误差是以均方误差来定义的。当线性回归的模型为二维平面上的直线时，均方误差就是预测输出和真实输出之间的欧几里得距离，也就是两点间向量的 L2 范数。而以使均方误差取得最小值为目标的模型求解方法就是最小二乘法，其表达式可以写成
w∗=wargmin​k=1∑​(wTxk​−yk​)2
=wargmin​k=1∑​∣∣yk​−wTxk​∣∣2
式中每个 xk​ 代表训练集中的一个样本。在单变量线性回归任务中，最小二乘法的作用就是找到一条直线，使所有样本到直线的欧式距离之和最小。
说到这里，问题就来了：凭什么使均方误差最小化的参数就是和训练样本匹配的最优模型呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

线性回归是机器学习中重要的基本算法之一，旨在确定输入变量和输出变量之间的线性关系，并求解最优系数以拟合数据。本文深入介绍了线性回归的历史渊源、数学原理以及相关的岭回归和LASSO回归方法。文章首先阐述了线性回归的基本概念和应用背景，以及其数学表达。随后详细讨论了线性回归中的误差衡量方法和最小二乘法的推导过程，阐释了最小二乘法与最大似然估计的等价性。此外，还介绍了单变量线性回归和多元线性回归的参数估计方法，以及可能出现的过拟合问题和解决方法。特别地，岭回归和LASSO回归方法通过引入惩罚项来抑制过拟合现象，为读者提供了更多解决实际问题的思路。文章还从概率的角度解释了这两种方法，并探讨了它们在抑制过拟合方面的作用。总的来说，本文通过历史案例和数学推导，深入浅出地介绍了线性回归的基本原理和应用，对于想要快速了解线性回归的读者具有很高的参考价值。在深度学习盛行的今天，线性回归仍然具有重要作用，尤其在处理巨量参数和复杂模型的挑战时，线性回归的应用前景仍然值得关注。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(30)

最新
精选

Maiza
老师每次看到公式的地方就跪了... 能麻烦给每个公式标明下出处，方便理解吗？老师认为理所当然的事情对小白来说就是天书啊。。。。。😂😂😂
作者回复: 公式的出处都是前辈们的推导啊……后面我会再过一遍公式，看看有没有符号解释不清的地方
2018-01-06

20
wdf
为什么说ringe对应的是正态，lasso是拉普拉斯分布
作者回复: 这是从贝叶斯角度出发的。假定参数本身已经服从正态/拉普拉斯分布，那么在高斯噪声之下，用参数的似然概率乘以先验就可以得到后验。对后验概率取对数得到的结果和正则化的损失函数形式一致，所以对后验概率的最大化就是对正则化损失函数的最小化。这相当于先假定参数符合特定条件，在此基础上再来计算最优参数。
2018-07-07

5
haiker
LASSO 回归感觉也是在做特征降维，会不会和做完特征降维之后再做线性回归效果差不多呢？
作者回复: LASSO的降维应该说是无心插柳，不是以降维为目的，但起到降维的效果。它和PCA这种直接降维的效果还是有区别的。
2018-10-14
2
3
Haley_Hu
2范数是不是就指L2正则 1范数就指L1正则
作者回复: 范数本身是个数学指标，用这个指标做正则化就是对应的正则化方法
2018-02-24

2
haiker
引入抑制过拟合现象，以训练误差的上升为代价，换取测试误差的下降，训练误差和测试误差有时候是不是鱼和熊掌，不可兼得，训练误差太低可能就过拟合了，在测试集上效果就不好了。有些学者建议在训练集上训练的时候要等到稍微过拟合了再结束，因为提前结束的话，可能模型还没训练到位。
作者回复: 抑制过拟合几乎成为机器学习的核心问题了。
2018-10-14

1
w 🍍
应该是”线性回归得到的就是 n+1 维空间上的一个超平面，对应一个维度等于 n 的线性子空间。“吧，还是我理解不对...
作者回复: 是的，感谢指出，一不小心就出来一个bug。
2019-08-11


全全
天一老师，讲的真好！有些内容您可以加上一些图片帮助理解，比如讲特征值分解那里，变换是由矩阵引起的，特征值和特征向量，您用文字解释的非常明白，我又看维基百科里给了一个动图，觉得豁然开朗。还有这次课里那几个范数应用在回归正则化里，也有图片可以帮助理解。有时候学习这个东西，在我完全不懂的时候，解释的多明白都是天书的感觉。只有懂了，再看的时候就有共鸣，看出您文字里背后的意思。这是我的体会。那么天一老师，我的困惑在于，用1范数可以做稀疏，同样是有棱有角的无穷范数，是不是也可以作为正则化的约束条件来实现稀疏呢？可以么？用无穷范数来实现稀疏？直观上看是可以的，如果不可以是因为什么呢？希望老师指点另外如果可以的话，那无穷范数实现的稀疏和1范数所实现的稀疏比较而言，有什么优缺点呢？跟您学，有收获，真心求教！
作者回复: 谢谢你的建议，因为这个专栏在定位时是音频为主，所以我在写稿时特意避免了图片的使用，现在看来是个败笔。无穷范数的定义式涉及极限，不方便写，你找本书看一看。无穷范数最后的结果就是这个向量里最大的元素。不管1范数还是2范数做正则化项，都是所有元素共同来决定范数取值，损失函数一变化，所有的元素都在变化。结果在无穷范数这里，变成最大的家伙一言堂了。从表达式上说，用无穷范数做正则化相当于求无穷范数的无穷次方，这个数要么等于0要么等于无穷大，也起不到正则化的作用。
2019-03-07


十八哥
假定给出美女的标准，数据化。问题提出如何确定美女在泳池中出现的概率？模型输入，地区、区域房价、游泳单价、时间维度、年龄参数等。此时我们可以用线性回归找到这些模型中那个变量是最优的，并且能给出排序。我的理解对吗？
作者回复: 实际上线性回归只能给出每个属性的权重，当然可以人为地认定权重越大，属性越优。
2018-12-01


haiker
季霍诺夫矩阵是超参数要提前指定，还是参数，在训练过程中获得呢？
作者回复: 超参数，需要提前确定，在不同的正则化超参数下计算出的模型参数也是不一样的。
2018-10-14


Howard.Wundt
老师的数学公式是用什么工具写的，可以具体分享一下吗？
作者回复: Latex，学术写作排版神器
2018-09-22



收起评论