机器学习40讲
王天一
工学博士,副教授
立即订阅
7975 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

02 | 贝叶斯视角下的机器学习

王天一 2018-06-07
在上一篇文章中,我向你介绍了频率学派对概率、统计和机器学习的理解。今天则要转换视角,看一看贝叶斯学派解决这些问题的思路。
还记得那个“九死一生”的例子吗?对其中 90% 的概率更直观、也更合理的解释是生病之后生还的可能性。之所以说频率主义的解释牵强,是因为没有哪个人能倒霉到三番五次地得这个病。当多次独立重复试验不可能实现时,就不存在从频率角度解读概率的理论基础。
虽然上面的这个例子不见得严谨,却可以用来描述频率学派的问题:对于所有的“一锤子买卖”,也就是不包含随机变量的事件来说,频率学派对概率的解读都是不成立的。
为了解决频率主义的问题,贝叶斯学派给出了一种更加通用的概率定义:概率表示的是客观上事件的可信程度(degree of belief),也可以说成是主观上主体对事件的信任程度,它是建立在对事件的已有知识基础上的。
比方说,当一个球迷提出“明天皇家马德里战胜拉斯帕尔马斯的概率是 86%”的时候,可以理解成他对皇马获胜有 86% 的把握程度,要是买球的话自然就会在独胜上下出重注(其实贝叶斯概率正是来源于对赌博的分析)。
除了对概率的置信度解释之外,贝叶斯学派中的另一个核心内容是贝叶斯定理(Bayes' theorem),用来解决“逆向概率问题”(inverse probability problem)。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(23)

  • 风的轨迹
    王老师,综合贝叶斯主义以及频率主义这两节课,我理解总结为以下4点,不知道是否正确:
    1. 在统计问题上,频率学派认为,参数是一个固定值(因为分布固定了嘛),数据是随机的,之后根据最大似然估计来求得参数值。但是这里有一个暗含的假设,就是如果参数固定那么分布也是固定的,也就是说我在讨论问题之前把模型固定好了,那么问题来了,模型是怎么确定的,你凭什么认为这个模型是最符合当下讨论问题的模型呢?于是就可以借此引出贝叶斯派的观点,贝叶斯学派认为,频率学派在选定模型的时候其实已然使用了先验的知识作为依据,相当于频率学派把问题人为简化成他们最优的一种情况。但是其实真实情况哪有那么简单,产生同一组数据的凭什么只能是一种模型,也有可能是多种模型,应该把所有可能产生样本数据的模型都纳入到考虑的范围之内,那么参数就变成了一个随机变量(因为分布不固定),而样本数据则是固定的,利用最大后验概率方法(所有可能产生这组数据的模型中,哪个模型生成这组数据的概率最大就选哪个模型)确定最优分布,进而得到参数。
    2. 贝叶斯公式虽然简单,但是却揭示了一个深刻的道理,就是我们原有的知识以及现有的数据是如何影响我们对于某件事情的信念的。而且这个过程应该还是一个动态变化的过程。举一个粗浅的例子,一开始我不信中医,我对它的先验概率是20%,结果有一次生病,误打误撞被中医治好了,假设被中医治好是有一个概率的(而且我也知道),而且居然发生了,那么我就可以通过这两个概率得到一个新的后验概率,也就是我对中医的信任程度增加到40%,这个就作为下一次我再生病的时候的先验概率。这个更接近于现实。
    3. 贝叶斯因为特别重视先验概率,而有的时候先验概率的获得极为困难,而且不一定客观,所以被频率主义诟病。
    4. 贝叶斯计算的复杂度往往要比频率主义大得多,所以现实中退而求其次利用频率分布的方法来解决问题多一些。

    作者回复: 总结得非常好!但要说明的一点是一般来说,模型的形式是预先固定的(线性回归或者高斯混合或者其他)。在给定模型形式的前提下,贝叶斯可以通过后验来控制模型的参数和复杂度。

    2018-06-12
    22
  • 彭擦擦සුභ නව වසරක්
    频率派和贝叶斯派在理论层面势不两立(我是坚定的站贝叶斯)

    而一旦到了应用层,就是谁好用就用谁:频率派偏向于收敛,就去解决已知问题的修改(置信区间、威尔逊算法);贝叶斯偏向于迭代,则去解决未知问题的预测(贝叶斯网络)

    作者回复: 贝叶斯虽然思想很棒,但运算太复杂,很多时候不接地气。要是效果差不多的话,频率方法一般是首选。

    2018-08-21
    4
  • 林彦
    频率学派把一种未观测到的球落在哪个位置的概率当成了唯一的概率,参数也唯一。其他位置的概率根据已观测的数据虽然小一些,但完全都用同一概率代替会造成误差。我的理解观测的次数增加会降低这种误差(这过程中球落哪的概率不变)。

    作者回复: 观测次数增加,最大似然估计的结果会越来越接近真实值。

    2018-06-08
    4
  • 风的轨迹
    另外关于Alice和Bob的赌局,我也较一个真啊,虽说从频率学派来看,Alice赢的概率是一个确定值,但是就用8次观察的结果作为估计值也有点误差太大了吧,频率学派估计要喊冤

    作者回复: 你说的对,这个例子不是用来说明频率主义是错误的,而是说它在非观察变量的处理上的确存在问题。如果说投球的次数增加,最大似然的估计肯定会越来越接近真实值。但在多次重复实验难以实现时,频率主义的劣势就会凸显。

    2018-06-12
    3
  • 李奇科
    我认为Bayes的最大缺点在于计算量(计算时间),而不是您讲的积分复杂程度和先验问题。实际研究中会发现Bayes的公式虽然看着复杂,但不难推导。这一点恰恰是Bayes的优势。这个优势也使得Bayes模型可以很flexible。而往往frequentist的问题的数学推导会十分复杂,(ingenious)。另外先验开率提供了incorporate更多信息的device。也不好简单的说是缺点。

    作者回复: 贝叶斯和频率就是两种不同的思路,两者在概率、统计和机器学习里都有应用。我向大家介绍两者,并没有对哪个的偏爱,也不存在对它们优劣的评判。
    频率的思路是由因及果,贝叶斯在此基础上进一步由果溯因,这是我所说“逆向概率”的含义,因为在频率学派里是没有先验后验的概念的。
    贝叶斯的计算量就是来源于对积分的计算,原则上说,贝叶斯推理应该把所有的非观测变量积分掉,也就是marginalization,这是贝叶斯统计的核心。正是因为太多太复杂的积分求不出解析解,才要用复杂的计算去近似的。
    贝叶斯更灵活是一点儿毛病也没有的,毕竟自带正则化特效。

    2018-06-07
    2
  • code-artist
    初出茅庐的小伙子,实践经验少,使用频率主义容易犯错。
    多读书有利于在大脑中能形成准确的先验考虑。
    每个人的头脑中的先验概率受父母,个人成长经历,读过的书,看过的影视剧等等因素所影响,因而对事物的判断不一样。
    我们内心中的那份固执源于以往成功的经验或失败的教训

    作者回复: 没错,其实贝叶斯才是更符合真实世界的那个方法论。

    2019-01-21
    1
  • never_giveup
    老师,有个疑问,对于那个赌博问题,为什么只将p换成了条件概率下的p,1-p中的p不用换吗?

    作者回复: (1-p)^3表示的是bob连胜3局这个事件发生的概率,在p取不同值时结果也不同,所以要积分。后面条件概率的含义是前面的p是真实值的可能性,或者说在5:3的数据给出的关于p的可信度。
    你可以把p看成一个随机变量,后面的条件概率是随机变量的概率分布,(1-p)^3是随机变量的函数。

    2018-06-10
    1
  • 不吐槽会死的喵星人
    基础差,听得迷迷糊糊的,也不确定自己听懂没。不过作业还是要交的。我觉得频率学派这次的失败主要是因为重复的实验次数太少了吧,假如次数足够多,求出概率的极限值,那得出的结婚也差不多了。这个我觉得反而是贝叶斯学派的优势,样品比较少时计算会更加精确。

    我想起一个事,抛硬币,以前我以为抛硬币的正反两面概率都为0.5。后来忘记哪里看到,抛硬币其实还有第三个情况,就是竖起来,虽然概率真的很小,但依旧有这个概率。另外硬币正反两面的概率其实不一样,虽然差别很小,但真的不一样,因为硬币两面图案不一样,重量也就不一样,与空气摩擦力也不一样,之类的,造成硬币正反面之间的概率差。

    总结下我自己的观点,贝叶斯在采样数少时更具优势,频率派在采样数多时更精确。

    另外,自己有个疑问,使用贝叶斯的算法,能否察觉出正反两面硬币之间的概率差?如果出现的竖起来的硬币,两派又是如何处理这个问题的。极小但存在的概率,当你不知道有这样的事情发生时,压根没想过会发生这样的事?

    作者回复: 虽然扔了很多次球,但从计算胜率的角度看,这场比赛其实只是一次独立的试验,根本不能依此对估计的精度做出推断。所以计算的错误并不能说明频率思想存在问题,只是对例子中的非观测变量处理不当。
    你说的有道理,频率需要大量重复实验来保证精确度,但贝叶斯可以将所有不确定因素的影响都体现在结果中,这是通过数学原理保证的,与数据量无关。
    正反面各0.5的概率是用来进行数学分析的理想的假设,在实际当中扔硬币其实根本不是随机事件,当所有的参数——出手角度、空气阻力等等全都已知时,硬币的正反面就是可以计算的确定结果。所以硬币这个问题要当成理想的数学模型来看,无需纠结概率差和站起来的问题。

    2018-06-07
    1
  • 林彦
    有具体的例子,公式推导,例子来自于难度适当的文献并给出完整的文献信息,概述理论并给出框架信息,对相关问题的与读者互动。王老师的专栏比较适合我这种入门级水平的读者更好地理解。从做老师的角度看您为学生考虑了不少。谢谢!最近我除了工作任务更多外,还在上一门有编程任务的数据分析类课程,努力挤出时间来跟上您专栏的进度。

    作者回复: 给足压力才能让潜力完全释放,加油!

    2018-06-07
    1
  • 李奇科
    对王老师的逆向概率不是很赞同。Bayes研究中不少是用generative model的
    2018-06-07
    1
  • 快乐飞翔

    王老师,能帮忙详细讲解一下Jo患病概率的公式是怎么推导出来的吗?实在没理解,感觉一下子就跳出来了,谢谢了

    作者回复: 出现jo类似症状有两种可能:有病和没病。没病的可能性是0.95,但没病也会出现症状的概率是0.01两者相乘就是jo没病的概率。同理jo有病的概率就是有病的可能性0.05乘以有病并出现症状的可能性0.95。两者做个归一化就可以得到0.16的结果。

    2019-11-05
  • ou叮当
    作为一名程序员,之前自学机器学习第一座大山就是数学,主要就是不知道学哪些数学,不知道怎么学,也不知道怎么用,直到遇见了这个课程。

    作者回复: 希望专栏能对你有所帮助

    2019-09-07
  • 杨涛涛
    对贝叶斯求极限 +oo 时间上的无穷大。就是 频率学派。?
    贝叶斯,的确定性是,对已发生的。
    频率学派的确定性概率,为到未来的额+oo?

    作者回复: 并不是。概率和牛顿力学一样,没有时间这个概念。贝叶斯相当于先给待估计的对象赋了一个先验分布,这是最核心的特点。

    2019-09-06
  • 古月
    稍作分析就不难发现,只要 p(brainwash|lie)>0.5p(brainwash|lie)>0.5,谎言的后验概率就会大于先验概率。 这个没看出来呀,怎么得出来的?

    作者回复: 把等式左侧的后验概率看作等式右侧p(b|l)的函数,就会发现这个函数是个增函数。当p(b|l)=0.5时,后验等于先验,所以随着p(b|l)增加,后验就大于先验了。

    2019-08-19
  • 阿土伯
    频率学派可否看成是贝叶斯学派的一种特例呢?因为频率学派假定参数是不便的,这个观点就属于先验概率吧?

    作者回复: 两者更像是两条不同的路。

    2019-02-27
  • 小刀
    公式怎么都显示的看起来很难受啊??
    2019-01-23
  • 秦龙君
    学习了。
    2019-01-10
  • 你不是我
    我认为,概率学,就是在给定的概率上,直接做计算,概率已定,所以需要大量数据作为依靠!频率学则是认为概率是随机变动的,如赌博的例子,下面第一把为3/8,如果赢了,概率就改成了4/9,所以p是流动的,谁优谁劣不好说,这可能和已有数据量有很大关系。

    作者回复: 观测次数越多,最大似然的结果会越接近真实值。

    2018-06-07
  • 李奇科
    您讲的Joe看病的例子难道不仅仅是一个条件概率的问题吗,我认为以此无法区分Bayes 和 frequentist的优劣吧。frequentist也是承认条件概率的啊。我自己虽然也是Bayesian,但是对王老师青睐Bayes的原因无法认同
    2018-06-07
  • 韶华
    健康检查那个例子,我理解应该是发病的概率,而不是患病的概率,对吗?
    2018-06-07
收起评论
23
返回
顶部