数据分析实战 45 讲
陈旸
清华大学计算机博士
123928 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 49 讲
第二模块:数据分析算法篇 (20讲)
第四模块:数据分析工作篇 (2讲)
数据分析实战 45 讲
15
15
1.0x
00:00/00:00
登录|注册

20丨朴素贝叶斯分类(上):如何让机器判断男女?

朴素贝叶斯分类器工作流程
连续数据案例
离散数据案例
类别概率和条件概率
贝叶斯原理的应用
逆向概率问题
朴素贝叶斯
贝叶斯原理
朴素贝叶斯分类

该思维导图由 AI 生成,仅供参考

很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的。有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解。
贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。
贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个有钱人。当然这也不是绝对,也就是说,当你不能准确预知一个事物本质的时候,你可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在。

贝叶斯原理

贝叶斯原理是怎么来的呢?贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。
什么是“逆向概率”呢?
所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。但这种情况往往是上帝视角,即了解了事情的全貌再做判断。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

贝叶斯原理是一种基于概率统计的分类方法,对机器学习领域具有重要意义。本文介绍了贝叶斯原理的基本概念和在生活中的应用,以及对统计学和科学史的影响。通过生动的例子,作者解释了贝叶斯原理的实际应用,如利用花钱的频次来推断一个人的财富状况。此外,文章还介绍了朴素贝叶斯算法,该算法假设每个输入变量是独立的,对于大部分复杂问题仍然非常有效。朴素贝叶斯分类器常用于文本分类,垃圾文本过滤等领域,具有广泛的应用前景。总的来说,本文为读者提供了对贝叶斯原理的初步了解,为进一步学习相关内容提供了基础知识。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析实战 45 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(77)

  • 最新
  • 精选
  • lianlian
    老师的数学理论和实战能力一定很强(✪▽✪),思考题:1.出轨,对应隐变量,则出轨的概率根据经验得到,为先验概率;2.暧昧短信的出现为观测变量,在出轨的条件下,求出现暧昧短信的概率,即在隐变量的条件下,计算对应观测变量的概率,此为条件概率;3.在出现暧昧短信的条件下,求出轨的概率,即在观测变量的条件下,计算对应隐变量的概率,此为后验概率,然而后验概率属于条件概率中的一种。

    编辑回复: 谢谢认可,关于三个问题对应的概率解释的不错。

    2019-01-28
    2
    51
  • 文晟
    在朴素贝叶斯中,我们要统计的是属性的条件概率,也就是假设取出来的是白色的棋子,那么它属于盒子 A 的概率是 2/3。 这个我算的是3/5,跟老师的不一样,老师可以给一下详细步骤吗

    编辑回复: 不少同学都遇到了这个问题,我来统一解答下。  这里我们需要运用贝叶斯公式(我在文章中也给出了),即: P(Bi|A)=P(Bi)P(A|Bi) / (P(B1)*P(A|B1)+P(B2)*P(A|B2)) 假设A代表白棋子,B1代表A盒,B2代表B盒。带入贝叶斯公式,我们可以得到: P(B1|A)=P(B1)P(A|B1) / (P(B1)*P(A|B1)+P(B2)*P(A|B2))=(4/7 * 1/2) / ( 4/7 * 1/2 + 3/7 * 1/3) = 2/3 其中P(B1)代表A盒的概率,7个棋子,A盒有4个,所以P(B1)=4/7。 P(B2)代表B盒的概率,7个棋子,B盒有3个,所以P(B2)=3/7。 最终求得取出来的是白色的棋子,那么它属于 A盒的概率P(B1|A)= 2/3。

    2019-01-28
    10
    25
  • 深白浅黑
    答案依次是: 1、先验概率,以经验进行判断。 2、后验概率,以结果进行判断。 3、条件概率,在某种条件下,发生结果的概率。

    编辑回复: 分析的正确,顺序应该如下 1、先验概率,以经验进行判断。 2、条件概率,在某种条件下,发生结果的概率。 3、后验概率,以结果进行判断。

    2019-02-02
    5
    24
  • 周飞
    1.离散型变量可以直接计算概率,连续型变量需要看成正态分布,然后计算期望和标准差,来计算概率。 2.你在没有任何情况下,出轨的概率 是先验概率 如果你出轨了,那么你的手机里有暧昧短信的概率。是后验概率 也是 条件概率 在你的手机里发现了暧昧短信,认为你出轨的概率。是条件概率

    作者回复: 很好的总结

    2019-03-09
    13
  • 夏天
    检查出为阳性患有贝叶死和没有患有贝叶死这两个公式不好理解,希望能详细解释,没看懂

    编辑回复: 我们假设:A表示 测出为阳性,B1表示患有贝叶死,B2表示没有患贝叶死。 检查出为阳性患有贝叶死 检查出阳性&患有贝叶死的概率,实际上是联合概率,也就是同时符合这两个条件的概率,我们用P(B1, A)代表。 那联合概率和条件概率是什么关系呢?实际上有个公式: P(X=a|Y=b) = P(X=a, Y=b) / P(Y=b) 这个公式告诉我们,如果想要求Y=b的条件下X=a的概率,等于我们知道同时符合 X=a和Y=b的概率,除以Y=b的概率。 因此你可以得出P(X=a, Y=b) = P(X=a|Y=b) * P(Y=b) 同样,带入我们想求的P(B1, A) = P(A, B1) = P(B1) * P(A|B1) 这个公式如果理解了,我在文章中计算了P(A|B1)=99.9%,P(B1)=0.01%,带入求得 0.01% * 99.9% = 0.00999% 同理,你也可以知道检查出阳性&没有患有贝叶死的概率,也就是P(B2, A),原理和P(B1, A)是一样的。 上面统计的是联合概率。如果是条件概率,比如P(B1|A)代表的是,在检查为阳性的情况下,患有贝叶死的概率。

    2019-02-04
    2
    11
  • FeiFei
    四个基础知识: 先验概率:经验推测。 条件概率:在某条件下,另一件事发生的概率。 后验概率:在事情已经发生后,推测原因。 拟然函数:关于统计参数的函数。

    作者回复: Good 总结的不错

    2019-07-09
    4
  • 求知鸟
    1、你在没有任何情况下,出轨的概率;(先验概率) 2、在你的手机里发现了暧昧短信,认为你出轨的概率。(条件概率) 3、如果你出轨了,那么你的手机里有暧昧短信的概率;(后验概率) 对应到贝叶斯案例 1、假设有一种病叫做“贝叶死”,它的发病率是万分之一, 2、现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1% 3、那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?

    作者回复: 2、现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%。这个不是条件概率。其他都正确

    2019-05-29
    2
    2
  • 每天晒白牙
    第一个问题:离散数据可以方便计算出分类概率和条件概率,然后代入公式。但连续数据因为变量是连续的,不能采用离线的方法计算概率,这就需要根据数据具体的特点转化成特定的函数,用函数的特点计算 第二个问题:先验概率、后验概率、条件概率

    编辑回复: 正确,计算了K折交叉验证的准确率,同时也给出了决策树的可视化。

    2019-01-30
    1
  • 桔子
    贝叶斯的理论真的很难理解,基于概率论的算法普遍可解释性偏差。

    作者回复: 确实如此。多尝试下,慢慢就理解了

    2020-03-26
  • Ronnyz
    作业: 1. 先验概率,依据经验判断 2. 条件概率,在出轨的条件下,出现暧昧短信的概率 3. 后验概率,以暧昧短信出现的结果,判断出轨的概率

    作者回复: 对的 正确

    2019-11-12
收起评论
显示
设置
留言
77
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部