人工智能基础课
王天一
工学博士,副教授
58937 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
开篇词 (1讲)
人工智能基础课
15
15
1.0x
00:00/00:00
登录|注册

09 机器学习 | 大道至简:朴素贝叶斯方法

可能给分类性能带来些许影响
数据的过度简化
极大简化分类问题的计算复杂度
简化计算
类条件概率转化为属性条件概率的乘积
如何防止因概率过小造成的下溢
信息检索领域
社交网络账号活跃度判断
二元分类
缺点
优点
朴素贝叶斯方法的“朴素”之处
可以使期望风险最小化
假定所有属性相互独立
后验概率通过贝叶斯定理求解
利用后验概率选择最佳分类
将连续取值的输入映射为离散取值的输出
防止下溢
应用场景
条件独立性假设
基本原理
解决分类问题
朴素贝叶斯方法

该思维导图由 AI 生成,仅供参考

周二我和你分享了机器学习中的线性回归算法,这一算法解决的是从连续取值的输入映射为连续取值的输出的回归问题。今天我分享的算法则用于解决分类问题,即将连续取值的输入映射为离散取值的输出,算法的名字叫作“朴素贝叶斯方法”。
解决分类问题的依据是数据的属性。朴素贝叶斯分类器假定样本的不同属性满足条件独立性假设,并在此基础上应用贝叶斯定理执行分类任务。其基本思想在于分析待分类样本出现在每个输出类别中的后验概率,并以取得最大后验概率的类别作为分类的输出
假设训练数据的属性由 n 维随机向量 表示,其分类结果用随机变量 y 表示,那么 x 和 y 的统计规律就可以用联合概率分布 描述,每一个具体的样本 都可以通过 独立同分布地产生。
朴素贝叶斯分类器的出发点就是这个联合概率分布,根据条件概率的性质可以得到
在上式中,P(Y) 代表着每个类别出现的概率,也就是类先验概率;P(X|Y) 代表着在给定的类别下不同属性出现的概率,也就是类似然概率
先验概率容易根据训练数据计算出来,只需要统计不同类别样本的数目即可。而似然概率受属性取值数目的影响,其估计较为困难。
如果每个样本包含 100 个属性,每个属性的取值都可能有 100 种,那么对分类的每个结果,要计算的条件概率数目就是 。在这么多参数的情况下,对似然概率的精确估计就需要庞大的数据量。
要解决似然概率难以估计的问题,就需要“条件独立性假设”登台亮相。条件独立性假设保证了所有属性相互独立,互不影响,每个属性独立地对分类结果发生作用这样类条件概率就变成了属性条件概率的乘积,在数学公式上可以体现为
这正是朴素贝叶斯方法的“朴素”之处,通过必要的假设来简化计算,并回归问题的本质
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

朴素贝叶斯方法是一种用于解决分类问题的算法,其基本思想在于分析待分类样本出现在每个输出类别中的后验概率,并以取得最大后验概率的类别作为分类的输出。该方法假定样本的不同属性满足条件独立性假设,并在此基础上应用贝叶斯定理执行分类任务。通过条件独立性假设,朴素贝叶斯方法简化了计算,并回归问题的本质。然而,属性的条件独立性假设是相当强的,在实际应用中可能导致数据的过度简化,从而影响分类性能。为了避免属性携带的信息被训练集中未曾出现过的属性值所干扰,在计算属性条件概率时需要添加一个称为“拉普拉斯平滑”的步骤。朴素贝叶斯方法在处理连续型属性数据时,通常假定属性数据满足正态分布,再根据每个类别下的训练数据计算出正态分布的均值和方差。尽管朴素贝叶斯方法的基础假设几乎永远不成立,但在绝大部分分类任务中依然能够体现出优良性能。这可能是因为在给定的训练数据集上,两个属性之间可能具有相关性,但这种相关性在每个类别上都以同样的程度体现。因此,尽管违背了条件独立性假设,却不会破坏朴素贝叶斯分类器的最优性。朴素贝叶斯方法是一种非常高效的方法,只要能够把最大的后验概率找到,就意味着它能实现正确的分类。文章还介绍了半朴素贝叶斯分类器的学习方法,以及朴素贝叶斯分类器的应用场景,包括垃圾邮件分类和社交网络账号活跃度判断。总的来说,朴素贝叶斯方法利用后验概率选择最佳分类,假定属性相互独立,但在实际应用中可能存在相关性,因此半朴素贝叶斯分类器的提出成为一种解决方案。在处理高维数据集时,需要注意避免因概率过小造成的下溢问题。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《人工智能基础课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(18)

  • 最新
  • 精选
  • 王杰
    讲的简洁易懂,回家途中看完了!一个问题:如果样本先降维去除属性相关性再用朴素贝叶斯分类,效果是不是就很好?

    作者回复: 原则上是会取得良好效果,但应用在实际问题中还要看真实表现。

    2018-01-30
    2
    10
  • 杜浩
    朴素贝叶斯为什么是期望风险最小化的 这点还是不太理解

    作者回复: 后验概率最大化意味着把实例划分到最可能的类中,使分类的错误概率最小,也就是期望风险最小。

    2018-02-28
    8
  • 吴文敏
    如果每个样本包含 100 个属性,每个属性的取值都可能有 100 种,那么对分类的每个结果,要计算的条件概率数目就是 100^2=10000 感觉这里应该是100^100

    作者回复: 没错,应该是每个属性的取值都有2种。

    2018-02-22
    3
    4
  • 秦龙君
    学习了。我想问老师一个问题,所有文章更新完了,有集结出书的计划吗?我感觉平时看完后,再用书重新看一遍,效果更好。

    池建强回复: 会出的

    2017-12-29
    3
    2
  • 隔壁老任
    老师你好,请教俩问题,1.第一段有句话有点懵,朴素贝叶斯是 将连续输入转化为离散输出么?我目前简单的,感觉都是离散输入到离散输出,属性的取值也多是离散的,如果是连续的,数量就太大了 2.同最后一个问题,因为朴素贝叶斯是用的后验概率相乘,貌似训练一次后,参数就不会变了?后续的的参数更新一般用什么方法呢? 谢谢

    作者回复: 1. 这句话的本义是将输入数据转化成分类结果,和回归问题形成对比。连续属性也是可以处理的,但需要离散化的过程,也能直接计算。 2. 这些传统方法不像深度学习,需要一轮一轮地训练。一波数据过来,参数就确定了,要更新就得用新的数据。

    2018-11-08
    2
  • wdf
    老师如果朴素贝叶斯算法,只在乎分类是否正确。是否他给出的概率值就参考意义不大?如果给出是正立的,赵军,只有一个是0.9,一个是0.6是不是很难说,是有区别的。

    作者回复: 后验概率归一化之后和应该为1,那么0.9和0.6就应该是0.6和0.4。即使不归一化,更大的0.9也说明这个样本更像正例。

    2018-09-22
    2
  • 夏震华(围巾)
    在使用高维数据集时,每个样本都会包含大量的属性,这时属性条件概率连乘的结果会非常接近于零,导致下溢的发生。如何防止因概率过小造成的下溢呢? 都乘个100,放大了,然后到了后面在统一除去?如何

    作者回复: 这可以看成取概率对数的特例

    2018-03-26
  • Andy
    王老师您好,感觉朴素贝叶斯不像逻辑回归那样有个loss func 可以做权重的学习,那么朴素贝叶斯训练好的模型怎么才能持久化呢?

    作者回复: 其实朴素贝叶斯也是有损失函数的,它的损失函数就是分类错误数的数学期望,让这个函数最小化和后验概率最大化是等价的,因而算法本身就暗含了最优化的过程。

    2018-01-16
  • 大佬,能有简单的项目或习题,让我们实践下不?
    2017-12-29
    11
  • 杨家荣
    打卡第七天(7/21): <<人工智能基础课09>>朴素贝叶斯方法 回答老师问题: 在使用高维数据集时,每个样本都会包含大量的属性,这时属性条件概率连乘的结果会非常接近于零,导致下溢的发生。如何防止因概率过小造成的下溢呢? 这样想到,得到<<吴军数学课>>42讲中古德-图灵折扣估计,预防黑天鹅事件.吴军老师讲古德用每一次的概率加一除总数,这样的结果不至于出现为0的情况,但最后估值肯定不准确,用朴素贝叶斯方法做分类应该没问题,我特意重读了吴军老师的课,老师还讲了吴军老师导师创的差值法,这个更接近,更精确,最后还提到备用法;等这些方法,都能最大程度防止因概率过小造成的下溢;我个人看法; 今日所学:朴素贝叶斯方法,将连续取值的输入映射为离散取值的输出,算法的名字叫作“朴素贝叶斯方法”。 其基本思想在于分析待分类样本出现在每个输出类别中的后验概率,并以取得最大后验概率的类别作为分类的输出. 名词:类先验概率,类似然概率(条件独立性假设保证了所有属性相互独立,互不影响,每个属性独立地对分类结果发生作用),这正是朴素贝叶斯方法的“朴素”之处,通过必要的假设来简化计算,并回归问题的本质; 1,从模型最优化的角度观察,朴素贝叶斯分类器是平均意义上预测能力最优的模型,也就是使期望风险最小化; 2,影响朴素贝叶斯的分类的是所有属性之间的依赖关系在不同类别上的分布,而不仅仅是依赖关系本身; 3,半朴素贝叶斯分类器考虑了部分属性之间的依赖关系,既保留了属性之间较强的相关性,又不需要完全计算复杂的联合概率分布。常用的方法是建立独依赖关系:假设每个属性除了类别之外,最多只依赖一个其他属性。由此,根据属性间依赖关系确定方式的不同,便衍生出了多种独依赖分类器。 4,朴素贝叶斯分类器的应用场景非常广泛。它可以根据关键词执行对一封邮件是否是垃圾邮件的二元分类,也可以用来判断社交网络上的账号到底是活跃用户还是僵尸粉。在信息检索领域,这种分类方法尤为实用。总结起来,以朴素贝叶斯分类器为代表的贝叶斯分类方法的策略是:根据训练数据计算后验概率,基于后验概率选择最佳决策。 总结: 1,朴素贝叶斯方法利用后验概率选择最佳分类,后验概率可以通过贝叶斯定理求解; 2,朴素贝叶斯方法假定所有属性相互独立,基于这一假设将类条件概率转化为属性条件概率的乘积; 3,朴素贝叶斯方法可以使期望风险最小化; 4,影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。
    2019-12-25
    1
    3
收起评论
显示
设置
留言
18
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部