数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17182 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

20丨朴素贝叶斯分类(上):如何让机器判断男女?

陈旸 2019-01-28
很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的。有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解。
贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。
贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个有钱人。当然这也不是绝对,也就是说,当你不能准确预知一个事物本质的时候,你可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在。

贝叶斯原理

贝叶斯原理是怎么来的呢?贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。
什么是“逆向概率”呢?
所谓“逆向概率”是相对“正向概率”而言。正向概率的问题很容易理解,比如我们已经知道袋子里面有 N 个球,不是黑球就是白球,其中 M 个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少。但这种情况往往是上帝视角,即了解了事情的全貌再做判断。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(58)

  • lianlian
    老师的数学理论和实战能力一定很强(✪▽✪),思考题:1.出轨,对应隐变量,则出轨的概率根据经验得到,为先验概率;2.暧昧短信的出现为观测变量,在出轨的条件下,求出现暧昧短信的概率,即在隐变量的条件下,计算对应观测变量的概率,此为条件概率;3.在出现暧昧短信的条件下,求出轨的概率,即在观测变量的条件下,计算对应隐变量的概率,此为后验概率,然而后验概率属于条件概率中的一种。

    编辑回复: 谢谢认可,关于三个问题对应的概率解释的不错。

    2019-01-28
    24
  • 深白浅黑
    答案依次是:
    1、先验概率,以经验进行判断。
    2、后验概率,以结果进行判断。
    3、条件概率,在某种条件下,发生结果的概率。

    编辑回复: 分析的正确,顺序应该如下
    1、先验概率,以经验进行判断。
    2、条件概率,在某种条件下,发生结果的概率。
    3、后验概率,以结果进行判断。

    2019-02-02
    2
    16
  • 文晟
    在朴素贝叶斯中,我们要统计的是属性的条件概率,也就是假设取出来的是白色的棋子,那么它属于盒子 A 的概率是 2/3。
    这个我算的是3/5,跟老师的不一样,老师可以给一下详细步骤吗

    编辑回复: 不少同学都遇到了这个问题,我来统一解答下。 
    这里我们需要运用贝叶斯公式(我在文章中也给出了),即:
    P(Bi|A)=P(Bi)P(A|Bi) / (P(B1)*P(A|B1)+P(B2)*P(A|B2))
    假设A代表白棋子,B1代表A盒,B2代表B盒。带入贝叶斯公式,我们可以得到:
    P(B1|A)=P(B1)P(A|B1) / (P(B1)*P(A|B1)+P(B2)*P(A|B2))=(4/7 * 1/2) / ( 4/7 * 1/2 + 3/7 * 1/3) = 2/3
    其中P(B1)代表A盒的概率,7个棋子,A盒有4个,所以P(B1)=4/7。
    P(B2)代表B盒的概率,7个棋子,B盒有3个,所以P(B2)=3/7。
    最终求得取出来的是白色的棋子,那么它属于 A盒的概率P(B1|A)= 2/3。

    2019-01-28
    13
  • james
    检查出为阳性患有贝叶死和没有患有贝叶死这两个公式不好理解,希望能详细解释,没看懂

    编辑回复: 我们假设:A表示 测出为阳性,B1表示患有贝叶死,B2表示没有患贝叶死。
    检查出为阳性患有贝叶死
    检查出阳性&患有贝叶死的概率,实际上是联合概率,也就是同时符合这两个条件的概率,我们用P(B1, A)代表。
    那联合概率和条件概率是什么关系呢?实际上有个公式:
    P(X=a|Y=b) = P(X=a, Y=b) / P(Y=b)
    这个公式告诉我们,如果想要求Y=b的条件下X=a的概率,等于我们知道同时符合 X=a和Y=b的概率,除以Y=b的概率。
    因此你可以得出P(X=a, Y=b) = P(X=a|Y=b) * P(Y=b)
    同样,带入我们想求的P(B1, A) = P(A, B1) = P(B1) * P(A|B1)
    这个公式如果理解了,我在文章中计算了P(A|B1)=99.9%,P(B1)=0.01%,带入求得 0.01% * 99.9% = 0.00999%
    同理,你也可以知道检查出阳性&没有患有贝叶死的概率,也就是P(B2, A),原理和P(B1, A)是一样的。
    上面统计的是联合概率。如果是条件概率,比如P(B1|A)代表的是,在检查为阳性的情况下,患有贝叶死的概率。

    2019-02-04
    7
  • 凛冬里的匍匐者
    1,第一个概率是先验概率,可以理解为是根据经验统计得到的(【出轨】与【未出轨】可以理解成是类别)
    2,第二个是条件概率,可以理解是在【出轨】类别的情况下,【有暧昧短信】的概率。
    3,第三个是后验概率,可以理解是在【有暧昧短信】的情况下,是【出轨】类别的概率,这个就是贝叶斯算法要解决的问题。可以这么计算:
    P(【出轨】|【有暧昧短信】) = P【出轨】*P(【有暧昧短信】|【出轨】)/( P【出轨】*P(【有暧昧短信】|【出轨】) + P【未出轨】*P(【有暧昧短信】|【未出轨】))
    2019-01-29
    7
  • 周飞
    1.离散型变量可以直接计算概率,连续型变量需要看成正态分布,然后计算期望和标准差,来计算概率。
    2.你在没有任何情况下,出轨的概率 是先验概率
    如果你出轨了,那么你的手机里有暧昧短信的概率。是后验概率 也是 条件概率
    在你的手机里发现了暧昧短信,认为你出轨的概率。是条件概率

    2019-03-09
    4
  • Geek_dancer
    1. 再取出是白棋的条件下,该白棋来自于A盒的概率为A2/3的计算。思路是取出的是白棋已经是事实了,这时候可以排除黑棋干扰,A盒2个白棋,B盒1个白棋,那么来自A盒的概率自然为2/3.
    贝叶斯公式计算:P(A | 白) = P(白 | A)P(A)/{P(白 | A)P(A) + P(白 | B)P(B)}=(1/2)*(4/7)/{(1/2)*(4/7)+(1/3)*(3/7)} = 2/3. P(A)的含义是,在无论取出什么颜色的棋子,来自A盒的概率值,即4/7

    2.”在检查出阳性的情况下,患病的可能性“ 反而小于 “在检查出阳性的情况下,不患病的可能性”,和我们平时去医院体检,检查出xx呈阳性,就知道我们大概率患了xx疾病,感觉例子和现实是两个概念啊。是不是因为这个例子中,检测发生错误的概率(0.1%)远高于患病发生的概率(0.01%)的原因导致。
    而且P(B1 | A)=0.01/(0.01+0.1)和P(B2 | A)=0.1/(0.01+0.1)的计算式,前面也应该是约等于吧,毕竟计算的时候将99.9%和99.99%做近似处理了,可以套用贝叶斯公式反推看看。
    2019-02-24
    3
  • 圆圆的大食客
    1. 离散变量可以直接求出概率,从而计算条件概率。连续变量需要假设密度函数(例如正态分布),然后通过带入值算出某一点的密度函数值。
    2. 1)先验概率 2)后验概率 3)条件概率
    2019-03-06
    2
  • FeiFei Jin
    四个基础知识:
    先验概率:经验推测。
    条件概率:在某条件下,另一件事发生的概率。
    后验概率:在事情已经发生后,推测原因。
    拟然函数:关于统计参数的函数。
    2019-07-09
    1
  • 舒成
    1、你在没有任何情况下,出轨的概率;(先验概率)
    2、在你的手机里发现了暧昧短信,认为你出轨的概率。(条件概率)
    3、如果你出轨了,那么你的手机里有暧昧短信的概率;(后验概率)

    对应到贝叶斯案例
    1、假设有一种病叫做“贝叶死”,它的发病率是万分之一,
    2、现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%
    3、那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?

    作者回复: 2、现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%。这个不是条件概率。其他都正确

    2019-05-29
    1
    1
  • 滨滨
    贝叶斯分类本质就是计算每一个分类的概率,概率大的就是结果,在已知身高体重鞋码的情况下,判断男女的概率分别是多少。贝叶斯是一种后验概率,计算的时候是通过先验概率计算的,而先验概率是通过训练集计算的。
    2019-03-24
    1
  • 蜗牛行天下
    个人认为思考题里,暧昧短信是一个特征,而出轨是目标值。所以区分先验概率后验概率的标准应该是是否出轨。1)任何情况下的出轨概率是一个不存在前提条件的目标概率,所以是先验概率;2)出轨的前提下,说明目标值已发生,因此考察的是目标值发生下的某个特征值的概率,所以是后验概率;3)发现暧昧短信前提下出轨的概率,是在满足某个特征值条件下的目标值概率,因此应该是条件概率。不知道我的理解是否准确?
    2019-02-16
    1
  • Chino
    这里如果把 是否有暧昧短信视为原因 是否出轨视为结果
    1. 先验概率
    2. 后验概率 (因为说明了如果出轨了 问有暧昧短信的概率) 跟原文中的后验概率的原理一样 "发生结果之后,推测原因的概率"
    3. 条件概率
    另外对于朴素贝叶斯开头那里的例子
    "在朴素贝叶斯中,我们要统计的是属性的条件概率,也就是假设取出来的是白色的棋子,那么它属于盒子 A 的概率是 2/3."
    2/3是怎么算的呢 我也是算出3/5
    2019-02-05
    1
  • 每天晒白牙
    第一个问题:离散数据可以方便计算出分类概率和条件概率,然后代入公式。但连续数据因为变量是连续的,不能采用离线的方法计算概率,这就需要根据数据具体的特点转化成特定的函数,用函数的特点计算
    第二个问题:先验概率、后验概率、条件概率

    编辑回复: 正确,计算了K折交叉验证的准确率,同时也给出了决策树的可视化。

    2019-01-30
    1
  • 姜戈
    依次是:先验概率,后验概率,条件概率
    2019-01-29
    1
  • FORWARD―MOUNT
    从连续到离散的转化就相当于是降维的过程。
    2019-01-29
    1
  • Ronnyz
    作业:
    1. 先验概率,依据经验判断
    2. 条件概率,在出轨的条件下,出现暧昧短信的概率
    3. 后验概率,以暧昧短信出现的结果,判断出轨的概率

    作者回复: 对的 正确

    2019-11-12
  • 明翼
    似然函数里面什么叫均匀的可能。。。
    2019-11-02
  • 羊小看
    看到实例的时候,想不起朴素贝叶斯在训练分类器的时候,是训练了什么,于是返回来再看一下。
    训练分类器,是根据训练样本,计算各类别的先验概率,各种类别下的条件概率,然后面对测试样本时,就可以根据特征值,及训练出的各种概率,假定各特征值之间相互独立(那么选择特征值的时候就要注意这一点吧),来计算属于各个类别的概率,比较取最大值;
    连续变量,则是假定各类别服从正态分布,训练时计算各类别下各特征值的均值和方差,可得其概率密度函数,针对测试样本,将特征值带入训练好的函数,计算概率,获得各类别的概率,取最大值。
    2019-10-24
  • 羊小看
    第一题,离散型变量,可以直接根据样本计算概率;连续型变量,则需要先假设样本呢符合正态分布,根据样本计算出概率分布(均值和方差),然后使用概率分布计算连续性变量的各种概率
    第二题,1,先验概率;2,后验概率;3,条件概率
    2019-10-20
收起评论
58
返回
顶部