机器学习40讲
王天一
工学博士,副教授
立即订阅
8040 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

05 | 模型的分类方式

王天一 2018-06-14
机器学习学的是输入和输出之间的映射关系,学到的映射会以模型的形式出现。从今天开始,我将和你聊聊关于模型的一些主题。
大多数情况下,机器学习的任务是求解输入输出单独或者共同符合的概率分布,或者拟合输入输出之间的数量关系。从数据的角度看,如果待求解的概率分布或者数量关系可以用一组有限且固定数目的参数完全刻画,求出的模型就是参数模型(parametric model);反过来,不满足这个条件的模型就是非参数模型(non-parametric model)
参数模型的优点在于只用少量参数就完整地描述出数据的概率特性,参数集中的每个参数都具有明确的统计意义。你可以回忆一下常用的典型概率分布,离散变量的二项分布 只包含两个参数,分别代表独立重复试验的次数和每次试验中事件发生的概率;连续变量的正态分布 也是只包含两个参数,分别代表着随机变量的均值和方差。所以在参数模型的学习中,算法的任务就是求出这些决定概率特性的参数,只要参数确定了,数据的统计分布也就确定了,即使未知的数据无穷无尽,我们也可以通过几个简单的参数来确定它们的性质。
为什么在参数模型中,有限的参数就能够描述无限的数据呢?想必你已经发现,这样的便捷来自于超强的先验假设:所有数据符合特定类型的概率分布。在实际的学习任务中,我们并非对问题一无所知,通常会具有一定的先验知识。先验知识并不源于对数据的观察,而是先于数据存在,参数模型恰恰就是先验知识的体现与应用
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(10)

  • Will王志翔(大象)
    # 从学习方法角度进行划分

    ## 参数模型 vs 非参数模型:全局普适性 vs 局部适用性

    ❶ 参数模型

    “新闻总是抄袭历史,模式在深处等待发掘。“

    当我们对问题有认知,有了「定性」的判断,然后我们便可以用「定量」的方式将它们刻画出来。所谓“参数模型”。

    优点:简单,只需付出较小的计算代价就可以从假设空间中习得一个较好的模型

    缺点:其可用性却严重依赖于先验知识的可信度,但若先验分布错误,则无法学出好的结果。

    ❷ 非参数模型

    “知之为知之,不知为不知,是知也。”

    当我们对问题知之甚少,最好的办法反而是避免对潜在模型做出过多的假设,所谓“非参数模型。”

    优点:当训练数据趋于无穷多时,非参数模型可以逼近任意复杂的真实模型。

    缺点:和参数相比,非参数模型的时空复杂度都会比参数模型大得多。

    误区:“非参数模型”不是“无参数模型”,恰恰相反,非参数模型意味着模型参数的数目是不固定的,并且极有可能是无穷大,这决定了非参数模型不可能像参数模型那样用固定且有限数目的参数来完全刻画。

    ❸ 参数模型 vs 非参数模型

    例子: 假定一个训练集中有 99 个数据,其均值为 100,方差为 1。那么对于第 100 个数据来说,它会以 99% 的概率小于哪一个数值呢?

    核心区别:数据分布特征的整体性与局部性。

    参数模型具有全局的特性,所有数据都满足统一的全局分布,如履至尊而制六合得到的扁平化结构。

    非参数模型是种局部模型,每个局部都有支配特性的参数,如战国时代每个诸侯国都有自己的国君一样。

    ## 数据模型 vs 算法模型:可解释性 vs 精确性

    ❹ 数据模型

    代表:线性回归

    优点:可解释性强

    缺点:简单模型有时不能充分体现出复杂作用机制

    ❺ 算法模型

    代表:随机森林

    优点:可描绘复杂的数据,精确度高

    缺点:可解释性弱

    # 从学习对象角度进行划分

    ❻ 生成模型 vs 判别模型:联合分布 vs 条件分布

    生成模型(generative model)学习的对象是输入 x 和输出 y 的联合分布 p(x,y)

    判别模型学习的则是已知输入 x 的条件下,输出 y 的条件分布 p(y|x)

    区分的例子:以判断某种语言是什么?前者输出学完所有语言。后者是学会不同语言的区别。

    # 参数模型是主流,大数据出现后,非参数模型的应用前景如何?

    有没有参数,并不是参数模型和非参数模型的区别。其区别主要在于总体的分布形式是否已知。而为何强调“参数”与“非参数”,主要原因在于参数模型的分布可以有参数直接确定。

    参数模型:线形回归

    非参模型:决策树 -> 随机森林;核SVM;

    半参数模型:神经网络(层数和神经元 → 参数模型) /(深度学习中dropout → 非参数)

    非参数应用挺广泛,如Kaggle火热模型,XGBOOST,效果就十分好。

    作者回复: 总结得非常细致,为你点赞👍非参模型是趋势,在改进参数模型时,局部化的处理也是主流思维

    2018-07-04
    13
  • 林彦
    GBDT,随机森林和SVM都是非参数模型?虽然可解释性不强,但在特征维度多,数据量够多,有标注的条件下,貌似读近10年的医疗类文献时用这几种机器学习方法声称预测准确度提高的例子还挺多的。感觉非参数就是用个黑盒子来猜数据规律的。

    作者回复: 是的,都是非参模型。决策树是典型的非参,万能的随机森林更是非参中的非参,八九十年代开始就是有好的效果,说不清是为什么。

    2018-06-15
    2
  • 杨森
    有些疑惑,支持向量机是非参模型还是参数模型? 网上有博客说是非参模型,对于线性svm,我理解他跟线性回归只是优化目标不一样。有些想归入参数模型,不知怎么看待

    作者回复: 核svm是典型的局部非参数模型,说线性svm是非参的原因是它的边界本质上取决于数据集的支持向量,计算出的线性系数只是支持向量的外化。从这个角度说,线性svm是非参的。

    2018-06-14
    2
  • Geek_405126
    请问老师:在用随机森林算法前,需要对数据先进行处理吗?比如,missing 值,或者特殊值。还有如果数据有categorical 的值,需要先进行处理吗?谢谢!

    作者回复: 特征缩放做不做都可以;缺失值必须要处理,要么补上要么删除数据;异常点最好去掉,因为决策树对异常点比较敏感;有序的分类变量可以按顺序编码,无序的分类变量可以转成哑变量。

    2018-06-21
    1
  • 刘明
    请问老师非参数模型的局部性如何理解?

    作者回复: 因为非参数模型没有对数据的结构做出假设,而是将每个数据体现出的特性捏合成一个整体,这样的整体实质上就是局部的组合。

    2019-10-28
  • 小刀
    写的很清晰,很棒
    2019-04-03
  • z
    假设空间是什么?是所有的模型(映射)叫假设空间,或者说所有的参数组合

    作者回复: 假设空间是个松散的概念,通常和算法挂钩,指的是算法能生成的所有假设,更接近于所有参数的组合。以线性模型为例,所有可能参数a b的组合共同组成y=ax+b的假设空间。

    2018-12-14
  • 孙金龙
    老师,神经网络是高度自由的非参模型吗

    作者回复: 神经网络算是半参数模型。如果层数和神经元数都固定不变就是参数模型。但在深度学习里会做dropout,就不知道到底哪些层的哪些神经元被激活,这时就是高度自由的非参数了。

    2018-06-21
  • never_giveup
    看的有点吃力,王老师能举一些参数模型和非参数模型的例子吗?比如说逻辑思蒂回归,线性回归,决策树,随机森林,朴素贝叶斯,神经网络分别属于哪一类?判别模型和生成模型学习的分别是条件分布和联合分布,怎么理解?能以具体的模型举个例子么?

    作者回复: 线性回归是典型的参数模型,所有数据都用一组线性系数去拟合。由线性回归衍生出来的逻辑回归也是参数模型。
    决策树是典型的非参模型,整个特征空间被分成若干块,相似的输入才会有相似的输出。
    神经网络算是半参数模型,如果层数和神经元数都固定了就是参数模型,但在深度学习里做了dropout,就不知道哪些层的哪些神经元被激活,这时就是非参数了。
    生成模型是对数据的生成机制进行建模,也就是求解x,y共同满足的分布。朴素贝叶斯是生成模型,它可以计算出p(y)和p(x|y),进而计算p(x, y)。这个过程就是先抽出类y,再在类中抽出数据x,但在计算p(x|y)时引入了属性独立的假设。
    判别模型是对不同类数据之间的差别进行建模,只要找到两者的区别就可以了,所以求解的是条件分布。逻辑回归就是判别模型,它计算的实际就是p(y|x),根据训练数据得出y取不同值时条件概率的差异。

    2018-06-15
  • 韶华
    参数模型与非参数模型,生成模型与非生成模型,这两对模型之间有可比性吗,比较困惑

    作者回复: 这两组是不同的分类方式,相当于看问题的不同角度,直接拿他俩做对比是没有意义的。

    2018-06-14
收起评论
10
返回
顶部