极客时间-轻松学习，高效学习-极客邦

Will王志翔(大象)

2018-07-04

# 从学习方法角度进行划分

## 参数模型 vs 非参数模型：全局普适性 vs 局部适用性

❶ 参数模型

“新闻总是抄袭历史，模式在深处等待发掘。“

当我们对问题有认知，有了「定性」的判断，然后我们便可以用「定量」的方式将它们刻画出来。所谓“参数模型”。

优点：简单，只需付出较小的计算代价就可以从假设空间中习得一个较好的模型

缺点：其可用性却严重依赖于先验知识的可信度，但若先验分布错误，则无法学出好的结果。

❷ 非参数模型

“知之为知之，不知为不知，是知也。”

当我们对问题知之甚少，最好的办法反而是避免对潜在模型做出过多的假设，所谓“非参数模型。”

优点：当训练数据趋于无穷多时，非参数模型可以逼近任意复杂的真实模型。

缺点：和参数相比，非参数模型的时空复杂度都会比参数模型大得多。

误区：“非参数模型”不是“无参数模型”，恰恰相反，非参数模型意味着模型参数的数目是不固定的，并且极有可能是无穷大，这决定了非参数模型不可能像参数模型那样用固定且有限数目的参数来完全刻画。

❸ 参数模型 vs 非参数模型

例子：假定一个训练集中有 99 个数据，其均值为 100，方差为 1。那么对于第 100 个数据来说，它会以 99% 的概率小于哪一个数值呢？

核心区别：数据分布特征的整体性与局部性。

参数模型具有全局的特性，所有数据都满足统一的全局分布，如履至尊而制六合得到的扁平化结构。

非参数模型是种局部模型，每个局部都有支配特性的参数，如战国时代每个诸侯国都有自己的国君一样。

## 数据模型 vs 算法模型：可解释性 vs 精确性

❹ 数据模型

代表：线性回归

优点：可解释性强

缺点：简单模型有时不能充分体现出复杂作用机制

❺ 算法模型

代表：随机森林

优点：可描绘复杂的数据，精确度高

缺点：可解释性弱

# 从学习对象角度进行划分

❻ 生成模型 vs 判别模型：联合分布 vs 条件分布

生成模型（generative model）学习的对象是输入 x 和输出 y 的联合分布 p(x,y)

判别模型学习的则是已知输入 x 的条件下，输出 y 的条件分布 p(y|x)

区分的例子：以判断某种语言是什么？前者输出学完所有语言。后者是学会不同语言的区别。

# 参数模型是主流，大数据出现后，非参数模型的应用前景如何？

有没有参数，并不是参数模型和非参数模型的区别。其区别主要在于总体的分布形式是否已知。而为何强调“参数”与“非参数”，主要原因在于参数模型的分布可以有参数直接确定。

参数模型：线形回归

非参模型：决策树 -> 随机森林；核SVM；

半参数模型：神经网络(层数和神经元 → 参数模型) /(深度学习中dropout → 非参数)

非参数应用挺广泛，如Kaggle火热模型，XGBOOST，效果就十分好。


展开

作者回复: 总结得非常细致，为你点赞👍非参模型是趋势，在改进参数模型时，局部化的处理也是主流思维



 14
林彦

2018-06-15

GBDT，随机森林和SVM都是非参数模型？虽然可解释性不强，但在特征维度多，数据量够多，有标注的条件下，貌似读近10年的医疗类文献时用这几种机器学习方法声称预测准确度提高的例子还挺多的。感觉非参数就是用个黑盒子来猜数据规律的。

作者回复: 是的，都是非参模型。决策树是典型的非参，万能的随机森林更是非参中的非参，八九十年代开始就是有好的效果，说不清是为什么。



 2
杨森

2018-06-14

有些疑惑，支持向量机是非参模型还是参数模型？网上有博客说是非参模型，对于线性svm，我理解他跟线性回归只是优化目标不一样。有些想归入参数模型，不知怎么看待

作者回复: 核svm是典型的局部非参数模型，说线性svm是非参的原因是它的边界本质上取决于数据集的支持向量，计算出的线性系数只是支持向量的外化。从这个角度说，线性svm是非参的。



 2
Geek_405126

2018-06-21

请问老师：在用随机森林算法前，需要对数据先进行处理吗？比如，missing 值，或者特殊值。还有如果数据有categorical 的值，需要先进行处理吗？谢谢！

作者回复: 特征缩放做不做都可以；缺失值必须要处理，要么补上要么删除数据；异常点最好去掉，因为决策树对异常点比较敏感；有序的分类变量可以按顺序编码，无序的分类变量可以转成哑变量。



 1
never_giveup

2018-06-15

看的有点吃力，王老师能举一些参数模型和非参数模型的例子吗？比如说逻辑思蒂回归，线性回归，决策树，随机森林，朴素贝叶斯，神经网络分别属于哪一类？判别模型和生成模型学习的分别是条件分布和联合分布，怎么理解？能以具体的模型举个例子么？

作者回复: 线性回归是典型的参数模型，所有数据都用一组线性系数去拟合。由线性回归衍生出来的逻辑回归也是参数模型。
决策树是典型的非参模型，整个特征空间被分成若干块，相似的输入才会有相似的输出。
神经网络算是半参数模型，如果层数和神经元数都固定了就是参数模型，但在深度学习里做了dropout，就不知道哪些层的哪些神经元被激活，这时就是非参数了。
生成模型是对数据的生成机制进行建模，也就是求解x,y共同满足的分布。朴素贝叶斯是生成模型，它可以计算出p(y)和p(x|y)，进而计算p(x, y)。这个过程就是先抽出类y，再在类中抽出数据x，但在计算p(x|y)时引入了属性独立的假设。
判别模型是对不同类数据之间的差别进行建模，只要找到两者的区别就可以了，所以求解的是条件分布。逻辑回归就是判别模型，它计算的实际就是p(y|x)，根据训练数据得出y取不同值时条件概率的差异。



 1
Geek_59

2020-01-30

极客时间
21天打卡行动 43/21
<<机器学习40讲/05>>模型的分类方式
今日所学:
1,从数据的角度看，如果待求解的概率分布或者数量关系可以用一组有限且固定数目的参数完全刻画，求出的模型就是参数模型（parametric model）；反过来，不满足这个条件的模型就是非参数模型（non-parametric model）。
2,参数模型的优点在于只用少量参数就完整地描述出数据的概率特性，参数集中的每个参数都具有明确的统计意义;
3,先验知识并不源于对数据的观察，而是先于数据存在，参数模型恰恰就是先验知识的体现与应用。
4,非参数模型意味着模型参数的数目是不固定的，并且极有可能是无穷大，这决定了非参数模型不可能像参数模型那样用固定且有限数目的参数来完全刻画;
5,非参数模型其实可以理解为一种局部模型;
6,数据分布模型构造上数据模型（data model）和算法模型（algorithm model）;
7,参数模型与非参数模型的核心区别在于数据分布特征的整体性与局部性,数据模型和算法模型之间的矛盾就是模型的可解释性与精确性的矛盾;
8,生成模型（generative model）学习的对象是输入 \mathbf{x} 和输出 y 的联合分布 p(\mathbf{x}, y)，判别模型学习的则是已知输入 \mathbf{x} 的条件下，输出 y 的条件分布 p(y | \mathbf{x})。
重点:
1,不同的学习思路对应假设空间中不同的建模方式与学习方法；
2,参数模型和非参数模型的区别体现的是全局普适性和局部适用性的区别；
3,数据模型和算法模型的区别体现的是可解释性和精确性的区别；
4,生成模型和判别模型的区别体现的是联合分布和条件分布的区别。

展开




刘明

2019-10-28

请问老师非参数模型的局部性如何理解？

作者回复: 因为非参数模型没有对数据的结构做出假设，而是将每个数据体现出的特性捏合成一个整体，这样的整体实质上就是局部的组合。




小刀

2019-04-03

写的很清晰，很棒




z

2018-12-14

假设空间是什么?是所有的模型(映射)叫假设空间,或者说所有的参数组合

作者回复: 假设空间是个松散的概念，通常和算法挂钩，指的是算法能生成的所有假设，更接近于所有参数的组合。以线性模型为例，所有可能参数a b的组合共同组成y=ax+b的假设空间。




孙金龙

2018-06-21

老师，神经网络是高度自由的非参模型吗

作者回复: 神经网络算是半参数模型。如果层数和神经元数都固定不变就是参数模型。但在深度学习里会做dropout，就不知道到底哪些层的哪些神经元被激活，这时就是高度自由的非参数了。




韶华

2018-06-14

参数模型与非参数模型，生成模型与非生成模型，这两对模型之间有可比性吗，比较困惑

作者回复: 这两组是不同的分类方式，相当于看问题的不同角度，直接拿他俩做对比是没有意义的。



