机器学习40讲
王天一
工学博士,副教授
立即订阅
7992 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

12 | 正则化处理:收缩方法与边际化

王天一 2018-06-30
今天的内容是线性回归的正则化扩展。正则化称得上是机器学习里的刮骨疗毒,刮的是过拟合(overfitting)这个任何机器学习方法都无法摆脱的附骨之疽。
本质上讲,过拟合就是模型过于复杂,复杂到削弱了它的泛化性能。由于训练数据的数目是有限的,因此我们总是可以通过增加参数的数量来提升模型的复杂度,进而降低训练误差。可人尽皆知的是,学习的本领越专精,应用的口径就越狭窄,过于复杂的模型就像那个御膳房里专门切黄瓜丝的御厨,让他改切萝卜就下不去刀了。
正则化(regularization)是用于抑制过拟合的方法的统称,它通过动态调整估计参数的取值来降低模型的复杂度,以偏差的增加为代价来换取方差的下降。这是因为当一些参数足够小时,它们对应的属性对输出结果的贡献就会微乎其微,这在实质上去除了非相关属性的影响。
在线性回归里,最常见的正则化方式就是在损失函数(loss function)中添加正则化项(regularizer),而添加的正则化项 往往是待估计参数的 - 范数。将均方误差和参数的范数之和作为一个整体来进行约束优化,相当于额外添加了一重关于参数的限制条件,避免大量参数同时出现较大的取值。由于正则化的作用通常是让参数估计值的幅度下降,因此在统计学中它也被称为系数收缩方法(shrinkage method)。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(5)

  • 林彦
    当参数的数目远远大于样本的数目的高维统计问题,并且参数的选择比较简单粗暴,其中有不少参数存在相关性时,比较建议用LASSO回归来降低参数数目。这样处理后才能做矩阵求逆运算。

    LASSO回归会让很多参数的系数变成零,只保留一部分参数,一般是保留系数最大的,系数小的因子很可能是噪音。参数取值的幅度有可能不一样,比如有的参数是-1到1,有的是-10到10,那么系数也会受影响。因此,在使用LASSO之前,需要对参数的取值幅度进行调整,这样计算出来的系数才具有可比性。

    当样本数远大于参数的数目时,岭回归计算更快。如果参数数量少而精,数值都调整好,偏度、峰度、正态化、去极值等等,而且普遍适用多种场景,参数可解释,这时比较适合用岭回归。

    岭回归不会删除参数,会对参数的取值幅度进行压缩。特征值小的特征向量会被压缩得最厉害,因此,它也要求参数取值幅度最好差不多,这样系数差不多,压缩起来才更有意义。

    作者回复: 总结的非常全面了,厉害👍

    2018-07-02
    10
  • hallo128
    贝叶斯统计老师有没有什么推荐书籍或课程,感觉贝叶斯视角这块完全没有入门。一直接触的都是频率学派的内容。

    作者回复: 一般的概率论课程里都会涉及贝叶斯,专门的贝叶斯统计教材我也不甚了解,但是有一本小书Think Bayes可以作为非科班的入门读物。

    2019-03-05
  • 土土
    到章就晕头转向了,不知道问题出现在哪里,老师能列一下前置知识吗

    作者回复: 基本的线性代数和概率论基础是需要具备的,可以参考《人工智能基础课》那个专栏。

    2019-01-24
  • Kudo
    LASSO和Ridge的图象说明太直观!!

    不过关于LASSO还有一个小疑问,按照图示说的系数约束方形和等误差圆的切点应该只有一个点。推广到三维的情况,应该是系数结束立方体与等误差球的切点,似乎也只是一个顶点。如果是这样的话,是不是说LASSO只会过滤掉一个属性?

    或者是我哪里理解的不对,请老师点解!
    2018-12-21
  • 我心飞扬
    请问老师如果想做贝叶斯的这种优化方法,py里面或者matlab里面有对应的包吗?

    作者回复: Matlab不清楚,Python里专门做贝叶斯的库中PyMC是最有名的了,sklearn也能实现BayesianRegression。

    2018-07-05
收起评论
5
返回
顶部