32 | 概率统计篇答疑和总结：为什么会有欠拟合和过拟合？

黄申



该思维导图由 AI 生成，仅供参考

你好，我是黄申。
在概率统计这个模块中，我们讲了很多监督式机器学习相关的概念。你可能对朴素贝叶斯、决策树、线性回归这类监督式算法中的一些概念还是不太清楚。比如说，为什么要使用大量的文档集合或者语料库来训练一个朴素贝叶斯模型呢？这个过程最后得到的结果是什么？为什么训练后的结果可以用于预测新的数据？这里面其实涉及了很多模型拟合的知识。
为了帮助你更好地理解这些内容，今天我就来说说监督式学习中几个很重要的概念：拟合、欠拟合和过拟合，以及如何处理欠拟合和过拟合。
拟合、欠拟合和过拟合每种学习模型都有自己的假设和参数。虽然朴素贝叶斯和决策树都属于分类算法，但是它们各自的假设和参数都不相同。朴素贝叶斯的假设是贝叶斯定理和变量之间的独立性，而决策树的假设是集合的纯净程度或者混乱程度。我们这里所说的参数，是指根据模型假设和训练样本推导出来的数据，例如朴素贝叶斯中的参数是各种先验概率和条件概率，而决策树的参数是各个树结点以及结点上的决策条件。
了解了什么是模型的假设和参数，我们来看看什么是模型的拟合（Model Fitting）。在监督式学习中，我们经常提到“训练一个模型”，其实更学术的说法应该是“拟合一个模型”。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

监督式学习中的拟合、欠拟合和过拟合是重要概念。拟合模型是通过模型的假设和训练样本推导出具体参数的过程，用于预测新数据。适度拟合表现为模型与训练数据较为契合，而欠拟合则表示模型无法很好地表示训练样本，导致测试样本表现不佳。相反，过拟合则是模型过于精细和复杂，导致在测试样本中表现不理想。这些状态是逐步演变的，最终目标是找到偏差和方差都比较均衡的适度拟合情况。文章通过图示和实例详细解释了拟合、欠拟合和过拟合的概念，以及模型复杂度对偏差和方差的影响。通过对朴素贝叶斯、决策树等监督式学习算法的假设和参数进行比较，帮助读者理解了这些概念在不同模型中的应用。文章还通过图示展示了适度拟合、欠拟合和过拟合的情况，使读者更直观地理解了这些概念。此外，文章还介绍了处理欠拟合和过拟合的方法，如增加特征维度、减少特征维度、剪枝和随机森林等。这些方法有助于调整模型的复杂度，从而达到适度拟合的效果。总的来说，本文通过生动的图示和清晰的实例，帮助读者深入理解了监督式学习中的拟合、欠拟合和过拟合的概念，为读者提供了宝贵的学习参考和指导。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《程序员的数学基础课》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(19)

最新
精选

冰冷的梦
老师，贝叶斯以后我已经基本看不懂了。。。我应该是缺少概率统计相关知识的基础吧？
作者回复: 你可以先把我之前介绍的概率基础，包括联合概率、条件概率、边缘概率等概念弄明白，然后再慢慢看贝叶斯这一块就不难理解了
2019-03-13

11
学习学个屁
我感觉我得多刷几遍才能理解了，看一遍会忘记的，太难了。
作者回复: 循序渐进，慢慢来，会有收获的
2020-01-17

4
阿信
概率统计这一模块的收获：理解了信息熵、信息增益相关概念。第26讲信息熵，测试武侠人物的思路，给我现在工作上的一个复杂问题提供了一些新的思路来进行适当简化
作者回复: 很高兴对你的工作有价值
2019-07-10

4
罗耀龙@坐忘
茶艺师学编程在学校学到贝叶斯定理，都觉得已经很难了。但现在，除了贝叶斯，还学到了决策树、信息增益、卡方检验、显著性检验、方差分析等等，这样跟着老师一路走来，感觉还是能抓到一点东西。那就是：事情没有绝对，不是非黑即白。说是靠谱，得算出有多大概率的靠谱；说不靠谱，也得上说有多大概率的不靠谱。大家都说这是不确定世界，但我们也不是束手无策，至少能把概率给算（模拟）出来，再根据算出的结果，把我们能做的事情做好。谢谢黄老师的讲解。
作者回复: 很高兴对你有价值！
2020-04-24

3
J.Smile
要点总结：欠拟合问题，产生的主要原因是特征维度过少，拟合的模型不够复杂，无法满足训练样本，最终导致误差较大。 ---解决办法：我们就可以增加特征维度，让输入的训练样本具有更强的表达能力。过拟合问题产生的主要原因则是特征维度过多，导致拟合的模型过于完美地符合训练样本，但是无法适应测试样本或者说新的数据。 ---解决办法：所以我们可以减少特征的维度，从另一个角度来看，过拟合表示模型太复杂，而相对的训练数据量太少。因此我们也可以增加训练样本的数据量，并尽量保持训练数据和测试数据分布的一致性
作者回复: 很好的总结
2020-02-27

2
💢 星星💢
老师其实你讲的相比外面那些讲数学的资料，相比而言容易理解太多了，而且我脑袋里已经有个概念了，但是很容易忘记，尤其是那些数学公式，估计是没有真真的理解还有实践吧。老师这门课已经让我树立了新的概念了，算是进入了一个新的领域，以后需要多看几遍。谢谢老师的付出，目前只看到这里。
作者回复: 很高兴对你有价值！
2019-11-15

2
Geek_b5a671
学到很多东西，特别是在概率基础(下)，看了4遍，基本上搞懂了这些，然后包括信息熵，信息增益这些，也有了进一步的理解，以前对这些只是知道个概念，现在有了初步的认识了，知道是怎么回事了。
作者回复: 很高兴这些课程对你有价值
2020-03-15

1
燕然君
这拟合的过程，就是数学建模的过程吗
作者回复: 有所不同，数学建模是人设计一个模型的过程，而这里的模型拟合是指机器根据人设计好的模型，进行模型参数的学习
2019-07-29
2
1
Dale
个人的最大的感觉是，“简单的”概率可以帮我们解决复杂的问题——人们会根据自己的过往经验对未知或者未来的事物进行一定程度的推测，但这种推测或可靠或不可靠，大多取决于个人的经验、能力和判断；机器学习则是把这种推测依据以及推测过程完全用数字度量了出来，将“以古鉴今”的思想运用到了极致！
作者回复: 很好的总结
2021-02-07


常振华
收获是，知道了哪类问题可以用什么思路去分析解决，至于具体细节，当遇到实际问题时再去深入细化即可
作者回复: 很好的总结
2020-10-20



收起评论