12 | 正则化处理：收缩方法与边际化

王天一



该思维导图由 AI 生成，仅供参考

今天的内容是线性回归的正则化扩展。正则化称得上是机器学习里的刮骨疗毒，刮的是过拟合（overfitting）这个任何机器学习方法都无法摆脱的附骨之疽。
本质上讲，过拟合就是模型过于复杂，复杂到削弱了它的泛化性能。由于训练数据的数目是有限的，因此我们总是可以通过增加参数的数量来提升模型的复杂度，进而降低训练误差。可人尽皆知的是，学习的本领越专精，应用的口径就越狭窄，过于复杂的模型就像那个御膳房里专门切黄瓜丝的御厨，让他改切萝卜就下不去刀了。
正则化（regularization）是用于抑制过拟合的方法的统称，它通过动态调整估计参数的取值来降低模型的复杂度，以偏差的增加为代价来换取方差的下降。这是因为当一些参数足够小时，它们对应的属性对输出结果的贡献就会微乎其微，这在实质上去除了非相关属性的影响。
在线性回归里，最常见的正则化方式就是在损失函数（loss function）中添加正则化项（regularizer），而添加的正则化项 R(λ) 往往是待估计参数的 p- 范数。将均方误差和参数的范数之和作为一个整体来进行约束优化，相当于额外添加了一重关于参数的限制条件，避免大量参数同时出现较大的取值。由于正则化的作用通常是让参数估计值的幅度下降，因此在统计学中它也被称为系数收缩方法（shrinkage method）。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入探讨了机器学习中的模型过拟合问题以及解决方法——正则化。过拟合是模型过于复杂，导致泛化性能下降的问题，而正则化通过动态调整参数的取值来降低模型复杂度，以偏差的增加换取方差的下降。文章介绍了不同的正则化方法，包括岭回归、LASSO和弹性网络，并通过图示形象地说明了它们的区别和作用。此外，从贝叶斯主义的角度解释了正则化的概念，指出正则化就是引入关于参数的先验信息。文章还提到了利用贝叶斯概率来确定最优参数的步骤，以及不同正则化方法在实际应用中的效果对比。总的来说，正则化的作用是抑制过拟合，通过增加偏差来降低方差，提升模型的泛化性能。同时，文章还强调了频率视角下的正则化与贝叶斯视角下的边际化作用相同，以及边际化对未知的参数和超参数进行积分以消除它们的影响，具有模型选择的功能。整体而言，本文对于想要深入了解模型过拟合和正则化的读者具有很高的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(8)

最新
精选

林彦
当参数的数目远远大于样本的数目的高维统计问题，并且参数的选择比较简单粗暴，其中有不少参数存在相关性时，比较建议用LASSO回归来降低参数数目。这样处理后才能做矩阵求逆运算。 LASSO回归会让很多参数的系数变成零，只保留一部分参数，一般是保留系数最大的，系数小的因子很可能是噪音。参数取值的幅度有可能不一样，比如有的参数是-1到1，有的是-10到10，那么系数也会受影响。因此，在使用LASSO之前，需要对参数的取值幅度进行调整，这样计算出来的系数才具有可比性。当样本数远大于参数的数目时，岭回归计算更快。如果参数数量少而精，数值都调整好，偏度、峰度、正态化、去极值等等，而且普遍适用多种场景，参数可解释，这时比较适合用岭回归。岭回归不会删除参数，会对参数的取值幅度进行压缩。特征值小的特征向量会被压缩得最厉害，因此，它也要求参数取值幅度最好差不多，这样系数差不多，压缩起来才更有意义。
作者回复: 总结的非常全面了，厉害👍
2018-07-02

26
土土
到章就晕头转向了，不知道问题出现在哪里，老师能列一下前置知识吗
作者回复: 基本的线性代数和概率论基础是需要具备的，可以参考《人工智能基础课》那个专栏。
2019-01-24

3
我心飞扬
请问老师如果想做贝叶斯的这种优化方法，py里面或者matlab里面有对应的包吗？
作者回复: Matlab不清楚，Python里专门做贝叶斯的库中PyMC是最有名的了，sklearn也能实现BayesianRegression。
2018-07-05

1
hallo128
贝叶斯统计老师有没有什么推荐书籍或课程，感觉贝叶斯视角这块完全没有入门。一直接触的都是频率学派的内容。
作者回复: 一般的概率论课程里都会涉及贝叶斯，专门的贝叶斯统计教材我也不甚了解，但是有一本小书Think Bayes可以作为非科班的入门读物。
2019-03-05


Kudo
LASSO和Ridge的图象说明太直观！！不过关于LASSO还有一个小疑问，按照图示说的系数约束方形和等误差圆的切点应该只有一个点。推广到三维的情况，应该是系数结束立方体与等误差球的切点，似乎也只是一个顶点。如果是这样的话，是不是说LASSO只会过滤掉一个属性？或者是我哪里理解的不对，请老师点解！
2018-12-21
1
2
ifelse
学习打卡
2023-05-31归属地：浙江

1
奔跑的火龙果
老师，请问这门课有配套的代码吗？
2022-08-26归属地：广东


杨家荣
极客时间 21天打卡行动 50/21 <<机器学习40讲/12>>正则化处理：收缩方法与边际化今日所学: 1,过拟合就是模型过于复杂，复杂到削弱了它的泛化性能, 2,正则化（regularization）是用于抑制过拟合的方法的统称,通过动态调整估计参数的取值来降低模型的复杂度，以偏差的增加为代价来换取方差的下降; 3,贝叶斯主义对正则化的理解：正则化就是引入关于参数的先验信息。 4,利用贝叶斯定理可以得出，最可能的超参数取值应该让下面的后验概率最大化; 5,贝叶斯边际化:价值就在于计算出的结果就是最优的结果。 6, Python 库都可以直接实现不同的正则化处理。在 Scikit-learn 库中，线性模型模块 linear_model 中的 Lasso 类和 Ridge 类就可以实现 l_1 正则化和 l_2 正则化。重点: 正则化的作用是抑制过拟合，通过增加偏差来降低方差，提升模型的泛化性能；正则化项的作用是对解空间添加约束，在约束范围内寻找产生最小误差的系数；频率视角下的正则化与贝叶斯视角下的边际化作用相同；边际化对未知的参数和超参数进行积分以消除它们的影响，天然具有模型选择的功能
2020-02-06



收起评论