05 | 模型的分类方式

王天一



该思维导图由 AI 生成，仅供参考

机器学习学的是输入和输出之间的映射关系，学到的映射会以模型的形式出现。从今天开始，我将和你聊聊关于模型的一些主题。
大多数情况下，机器学习的任务是求解输入输出单独或者共同符合的概率分布，或者拟合输入输出之间的数量关系。从数据的角度看，如果待求解的概率分布或者数量关系可以用一组有限且固定数目的参数完全刻画，求出的模型就是参数模型（parametric model）；反过来，不满足这个条件的模型就是非参数模型（non-parametric model）。
参数模型的优点在于只用少量参数就完整地描述出数据的概率特性，参数集中的每个参数都具有明确的统计意义。你可以回忆一下常用的典型概率分布，离散变量的二项分布 B(n,p) 只包含两个参数，分别代表独立重复试验的次数和每次试验中事件发生的概率；连续变量的正态分布 N(μ,σ) 也是只包含两个参数，分别代表着随机变量的均值和方差。所以在参数模型的学习中，算法的任务就是求出这些决定概率特性的参数，只要参数确定了，数据的统计分布也就确定了，即使未知的数据无穷无尽，我们也可以通过几个简单的参数来确定它们的性质。
为什么在参数模型中，有限的参数就能够描述无限的数据呢？想必你已经发现，这样的便捷来自于超强的先验假设：所有数据符合特定类型的概率分布。在实际的学习任务中，我们并非对问题一无所知，通常会具有一定的先验知识。先验知识并不源于对数据的观察，而是先于数据存在，参数模型恰恰就是先验知识的体现与应用。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

机器学习模型的分类方法及应用潜力机器学习模型主要分为参数模型和非参数模型两类。参数模型依赖于有限且固定数目的参数来描述数据的概率特性，适用于对数据有一定先验知识的情况；而非参数模型则不对数据分布做出假设，适用于对潜在模型做出过多假设不合理的情况。此外，文章还介绍了数据模型和算法模型的区别，数据模型侧重于模型对数据的拟合能力和预测能力，而算法模型则更注重学习算法从数据中获取有用结论和展示数据规律的能力。随机森林作为一种集成学习方法，通过综合使用建立在同一个数据集上的不同决策树，在很多问题上都将精确度提升了数倍。然而，精确度的提升换来的是可解释性的下降。文章还介绍了生成模型和判别模型的区别，以及它们在分类问题中的应用和优劣势。总的来说，参数模型目前仍是机器学习的主流，但随着大数据概念的出现，更多更复杂的数据无疑会给参数的拟合带来更大的挑战。在这样的背景下，非参数模型有可能发挥更大的作用。因此，读者可以思考非参数模型在未来机器学习中的应用潜力。文章通过深入浅出地解释了机器学习模型的分类方法及其应用潜力，为读者提供了对这一领域的全面了解和思考。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(15)

最新
精选

Will王志翔(大象)
# 从学习方法角度进行划分 ## 参数模型 vs 非参数模型：全局普适性 vs 局部适用性 ❶ 参数模型 “新闻总是抄袭历史，模式在深处等待发掘。“ 当我们对问题有认知，有了「定性」的判断，然后我们便可以用「定量」的方式将它们刻画出来。所谓“参数模型”。优点：简单，只需付出较小的计算代价就可以从假设空间中习得一个较好的模型缺点：其可用性却严重依赖于先验知识的可信度，但若先验分布错误，则无法学出好的结果。 ❷ 非参数模型 “知之为知之，不知为不知，是知也。” 当我们对问题知之甚少，最好的办法反而是避免对潜在模型做出过多的假设，所谓“非参数模型。” 优点：当训练数据趋于无穷多时，非参数模型可以逼近任意复杂的真实模型。缺点：和参数相比，非参数模型的时空复杂度都会比参数模型大得多。误区：“非参数模型”不是“无参数模型”，恰恰相反，非参数模型意味着模型参数的数目是不固定的，并且极有可能是无穷大，这决定了非参数模型不可能像参数模型那样用固定且有限数目的参数来完全刻画。 ❸ 参数模型 vs 非参数模型例子：假定一个训练集中有 99 个数据，其均值为 100，方差为 1。那么对于第 100 个数据来说，它会以 99% 的概率小于哪一个数值呢？核心区别：数据分布特征的整体性与局部性。参数模型具有全局的特性，所有数据都满足统一的全局分布，如履至尊而制六合得到的扁平化结构。非参数模型是种局部模型，每个局部都有支配特性的参数，如战国时代每个诸侯国都有自己的国君一样。 ## 数据模型 vs 算法模型：可解释性 vs 精确性 ❹ 数据模型代表：线性回归优点：可解释性强缺点：简单模型有时不能充分体现出复杂作用机制 ❺ 算法模型代表：随机森林优点：可描绘复杂的数据，精确度高缺点：可解释性弱 # 从学习对象角度进行划分 ❻ 生成模型 vs 判别模型：联合分布 vs 条件分布生成模型（generative model）学习的对象是输入 x 和输出 y 的联合分布 p(x,y) 判别模型学习的则是已知输入 x 的条件下，输出 y 的条件分布 p(y|x) 区分的例子：以判断某种语言是什么？前者输出学完所有语言。后者是学会不同语言的区别。 # 参数模型是主流，大数据出现后，非参数模型的应用前景如何？有没有参数，并不是参数模型和非参数模型的区别。其区别主要在于总体的分布形式是否已知。而为何强调“参数”与“非参数”，主要原因在于参数模型的分布可以有参数直接确定。参数模型：线形回归非参模型：决策树 -> 随机森林；核SVM；半参数模型：神经网络(层数和神经元 → 参数模型) /(深度学习中dropout → 非参数) 非参数应用挺广泛，如Kaggle火热模型，XGBOOST，效果就十分好。
作者回复: 总结得非常细致，为你点赞👍非参模型是趋势，在改进参数模型时，局部化的处理也是主流思维
2018-07-04

29
林彦
GBDT，随机森林和SVM都是非参数模型？虽然可解释性不强，但在特征维度多，数据量够多，有标注的条件下，貌似读近10年的医疗类文献时用这几种机器学习方法声称预测准确度提高的例子还挺多的。感觉非参数就是用个黑盒子来猜数据规律的。
作者回复: 是的，都是非参模型。决策树是典型的非参，万能的随机森林更是非参中的非参，八九十年代开始就是有好的效果，说不清是为什么。
2018-06-15
2
6
never_giveup
看的有点吃力，王老师能举一些参数模型和非参数模型的例子吗？比如说逻辑思蒂回归，线性回归，决策树，随机森林，朴素贝叶斯，神经网络分别属于哪一类？判别模型和生成模型学习的分别是条件分布和联合分布，怎么理解？能以具体的模型举个例子么？
作者回复: 线性回归是典型的参数模型，所有数据都用一组线性系数去拟合。由线性回归衍生出来的逻辑回归也是参数模型。决策树是典型的非参模型，整个特征空间被分成若干块，相似的输入才会有相似的输出。神经网络算是半参数模型，如果层数和神经元数都固定了就是参数模型，但在深度学习里做了dropout，就不知道哪些层的哪些神经元被激活，这时就是非参数了。生成模型是对数据的生成机制进行建模，也就是求解x,y共同满足的分布。朴素贝叶斯是生成模型，它可以计算出p(y)和p(x|y)，进而计算p(x, y)。这个过程就是先抽出类y，再在类中抽出数据x，但在计算p(x|y)时引入了属性独立的假设。判别模型是对不同类数据之间的差别进行建模，只要找到两者的区别就可以了，所以求解的是条件分布。逻辑回归就是判别模型，它计算的实际就是p(y|x)，根据训练数据得出y取不同值时条件概率的差异。
2018-06-15

6
Geek_405126
请问老师：在用随机森林算法前，需要对数据先进行处理吗？比如，missing 值，或者特殊值。还有如果数据有categorical 的值，需要先进行处理吗？谢谢！
作者回复: 特征缩放做不做都可以；缺失值必须要处理，要么补上要么删除数据；异常点最好去掉，因为决策树对异常点比较敏感；有序的分类变量可以按顺序编码，无序的分类变量可以转成哑变量。
2018-06-21

2
杨森
有些疑惑，支持向量机是非参模型还是参数模型？网上有博客说是非参模型，对于线性svm，我理解他跟线性回归只是优化目标不一样。有些想归入参数模型，不知怎么看待
作者回复: 核svm是典型的局部非参数模型，说线性svm是非参的原因是它的边界本质上取决于数据集的支持向量，计算出的线性系数只是支持向量的外化。从这个角度说，线性svm是非参的。
2018-06-14

2
Geek_360c81
老师，神经网络是高度自由的非参模型吗
作者回复: 神经网络算是半参数模型。如果层数和神经元数都固定不变就是参数模型。但在深度学习里会做dropout，就不知道到底哪些层的哪些神经元被激活，这时就是高度自由的非参数了。
2018-06-21

1
刘明
请问老师非参数模型的局部性如何理解？
作者回复: 因为非参数模型没有对数据的结构做出假设，而是将每个数据体现出的特性捏合成一个整体，这样的整体实质上就是局部的组合。
2019-10-28


z
假设空间是什么?是所有的模型(映射)叫假设空间,或者说所有的参数组合
作者回复: 假设空间是个松散的概念，通常和算法挂钩，指的是算法能生成的所有假设，更接近于所有参数的组合。以线性模型为例，所有可能参数a b的组合共同组成y=ax+b的假设空间。
2018-12-14


韶华
参数模型与非参数模型，生成模型与非生成模型，这两对模型之间有可比性吗，比较困惑
作者回复: 这两组是不同的分类方式，相当于看问题的不同角度，直接拿他俩做对比是没有意义的。
2018-06-14


ifelse
学习打卡
2023-05-27归属地：浙江

1

收起评论