02 | 贝叶斯视角下的机器学习

王天一



该思维导图由 AI 生成，仅供参考

在上一篇文章中，我向你介绍了频率学派对概率、统计和机器学习的理解。今天则要转换视角，看一看贝叶斯学派解决这些问题的思路。
还记得那个“九死一生”的例子吗？对其中 90% 的概率更直观、也更合理的解释是生病之后生还的可能性。之所以说频率主义的解释牵强，是因为没有哪个人能倒霉到三番五次地得这个病。当多次独立重复试验不可能实现时，就不存在从频率角度解读概率的理论基础。
虽然上面的这个例子不见得严谨，却可以用来描述频率学派的问题：对于所有的“一锤子买卖”，也就是不包含随机变量的事件来说，频率学派对概率的解读都是不成立的。
为了解决频率主义的问题，贝叶斯学派给出了一种更加通用的概率定义：概率表示的是客观上事件的可信程度（degree of belief），也可以说成是主观上主体对事件的信任程度，它是建立在对事件的已有知识基础上的。
比方说，当一个球迷提出“明天皇家马德里战胜拉斯帕尔马斯的概率是 86%”的时候，可以理解成他对皇马获胜有 86% 的把握程度，要是买球的话自然就会在独胜上下出重注（其实贝叶斯概率正是来源于对赌博的分析）。
除了对概率的置信度解释之外，贝叶斯学派中的另一个核心内容是贝叶斯定理（Bayes' theorem），用来解决“逆向概率问题”（inverse probability problem）。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

贝叶斯视角下的机器学习贝叶斯学派提供了一种更通用的概率定义，将概率解释为事件的可信程度，建立在对事件的已有知识基础上。贝叶斯定理则用于解决“逆向概率问题”，通过先验概率和似然概率计算后验概率，刻画了数据对于知识和信念的影响。贝叶斯主义的统计学将待估计的参数视为随机变量，使用最大后验概率估计。相比频率主义的最大似然估计，贝叶斯主义更加注重先验信息的重要性。然而，指定先验分布的必要性也成为贝叶斯学派被频率学派诟病的原因之一。贝叶斯学派的处理方式是引入无信息先验（noninformative prior），认为未知参数取到所有取值的可能性都是相等的，也就是满足均匀分布。在贝叶斯视角下的机器学习中，贝叶斯定理大量涉及各种显式变量与隐藏变量的依赖关系，通常用概率图模型来直观地描述。贝叶斯主义将未知参数视为随机变量，参数在学习之前的不确定性由先验概率描述，学习之后的不确定性则由后验概率描述，这中间不确定性的消除就是机器学习的作用。与频率主义不同的是，贝叶斯学习的输出不是简单的最优估计值，而是关于参数的概率分布，从而给出了更加完整的信息。在预测问题中，贝叶斯学习给出的也不仅仅是一个可能性最大的结果，而是将所有结果及其概率以概率分布的形式完整地呈现出来。贝叶斯学习在模型选择上也有优势，通过可信度来筛选模型。然而，贝叶斯方法的缺点包括对未知变量的积分运算会导致极高的计算复杂度，以及对先验分布的设定包含一定的主观性。尽管贝叶斯方法未能取代频率主义成为主流，但两者更像是一枚硬币的两面，在思想方法上没有根本性的对立，各种频率主义下的统计学习方法也可以通过贝叶斯来解释。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(35)

最新
精选

风的轨迹
王老师，综合贝叶斯主义以及频率主义这两节课，我理解总结为以下4点，不知道是否正确： 1. 在统计问题上，频率学派认为，参数是一个固定值（因为分布固定了嘛），数据是随机的，之后根据最大似然估计来求得参数值。但是这里有一个暗含的假设，就是如果参数固定那么分布也是固定的，也就是说我在讨论问题之前把模型固定好了，那么问题来了，模型是怎么确定的，你凭什么认为这个模型是最符合当下讨论问题的模型呢？于是就可以借此引出贝叶斯派的观点，贝叶斯学派认为，频率学派在选定模型的时候其实已然使用了先验的知识作为依据，相当于频率学派把问题人为简化成他们最优的一种情况。但是其实真实情况哪有那么简单，产生同一组数据的凭什么只能是一种模型，也有可能是多种模型，应该把所有可能产生样本数据的模型都纳入到考虑的范围之内，那么参数就变成了一个随机变量（因为分布不固定），而样本数据则是固定的，利用最大后验概率方法（所有可能产生这组数据的模型中，哪个模型生成这组数据的概率最大就选哪个模型）确定最优分布，进而得到参数。 2. 贝叶斯公式虽然简单，但是却揭示了一个深刻的道理，就是我们原有的知识以及现有的数据是如何影响我们对于某件事情的信念的。而且这个过程应该还是一个动态变化的过程。举一个粗浅的例子，一开始我不信中医，我对它的先验概率是20%，结果有一次生病，误打误撞被中医治好了，假设被中医治好是有一个概率的（而且我也知道），而且居然发生了，那么我就可以通过这两个概率得到一个新的后验概率，也就是我对中医的信任程度增加到40%，这个就作为下一次我再生病的时候的先验概率。这个更接近于现实。 3. 贝叶斯因为特别重视先验概率，而有的时候先验概率的获得极为困难，而且不一定客观，所以被频率主义诟病。 4. 贝叶斯计算的复杂度往往要比频率主义大得多，所以现实中退而求其次利用频率分布的方法来解决问题多一些。
作者回复: 总结得非常好！但要说明的一点是一般来说，模型的形式是预先固定的（线性回归或者高斯混合或者其他）。在给定模型形式的前提下，贝叶斯可以通过后验来控制模型的参数和复杂度。
2018-06-12

53
Shine
初出茅庐的小伙子，实践经验少，使用频率主义容易犯错。多读书有利于在大脑中能形成准确的先验考虑。每个人的头脑中的先验概率受父母，个人成长经历，读过的书，看过的影视剧等等因素所影响，因而对事物的判断不一样。我们内心中的那份固执源于以往成功的经验或失败的教训
作者回复: 没错，其实贝叶斯才是更符合真实世界的那个方法论。
2019-01-21

17
风的轨迹
另外关于Alice和Bob的赌局，我也较一个真啊，虽说从频率学派来看，Alice赢的概率是一个确定值，但是就用8次观察的结果作为估计值也有点误差太大了吧，频率学派估计要喊冤
作者回复: 你说的对，这个例子不是用来说明频率主义是错误的，而是说它在非观察变量的处理上的确存在问题。如果说投球的次数增加，最大似然的估计肯定会越来越接近真实值。但在多次重复实验难以实现时，频率主义的劣势就会凸显。
2018-06-12

11
彭擦擦සුභ නව වසරක්
频率派和贝叶斯派在理论层面势不两立（我是坚定的站贝叶斯）而一旦到了应用层，就是谁好用就用谁：频率派偏向于收敛，就去解决已知问题的修改（置信区间、威尔逊算法）；贝叶斯偏向于迭代，则去解决未知问题的预测（贝叶斯网络）
作者回复: 贝叶斯虽然思想很棒，但运算太复杂，很多时候不接地气。要是效果差不多的话，频率方法一般是首选。
2018-08-21

9
林彦
频率学派把一种未观测到的球落在哪个位置的概率当成了唯一的概率，参数也唯一。其他位置的概率根据已观测的数据虽然小一些，但完全都用同一概率代替会造成误差。我的理解观测的次数增加会降低这种误差(这过程中球落哪的概率不变)。
作者回复: 观测次数增加，最大似然估计的结果会越来越接近真实值。
2018-06-08

4
never_giveup
老师，有个疑问，对于那个赌博问题，为什么只将p换成了条件概率下的p，1-p中的p不用换吗？
作者回复: (1-p)^3表示的是bob连胜3局这个事件发生的概率，在p取不同值时结果也不同，所以要积分。后面条件概率的含义是前面的p是真实值的可能性，或者说在5:3的数据给出的关于p的可信度。你可以把p看成一个随机变量，后面的条件概率是随机变量的概率分布，(1-p)^3是随机变量的函数。
2018-06-10

3
李奇科
我认为Bayes的最大缺点在于计算量（计算时间），而不是您讲的积分复杂程度和先验问题。实际研究中会发现Bayes的公式虽然看着复杂，但不难推导。这一点恰恰是Bayes的优势。这个优势也使得Bayes模型可以很flexible。而往往frequentist的问题的数学推导会十分复杂，（ingenious）。另外先验开率提供了incorporate更多信息的device。也不好简单的说是缺点。
作者回复: 贝叶斯和频率就是两种不同的思路，两者在概率、统计和机器学习里都有应用。我向大家介绍两者，并没有对哪个的偏爱，也不存在对它们优劣的评判。频率的思路是由因及果，贝叶斯在此基础上进一步由果溯因，这是我所说“逆向概率”的含义，因为在频率学派里是没有先验后验的概念的。贝叶斯的计算量就是来源于对积分的计算，原则上说，贝叶斯推理应该把所有的非观测变量积分掉，也就是marginalization，这是贝叶斯统计的核心。正是因为太多太复杂的积分求不出解析解，才要用复杂的计算去近似的。贝叶斯更灵活是一点儿毛病也没有的，毕竟自带正则化特效。
2018-06-07

3
ou叮当
作为一名程序员，之前自学机器学习第一座大山就是数学，主要就是不知道学哪些数学，不知道怎么学，也不知道怎么用，直到遇见了这个课程。
作者回复: 希望专栏能对你有所帮助
2019-09-07

1
不吐槽会死的喵星人
基础差，听得迷迷糊糊的，也不确定自己听懂没。不过作业还是要交的。我觉得频率学派这次的失败主要是因为重复的实验次数太少了吧，假如次数足够多，求出概率的极限值，那得出的结婚也差不多了。这个我觉得反而是贝叶斯学派的优势，样品比较少时计算会更加精确。我想起一个事，抛硬币，以前我以为抛硬币的正反两面概率都为0.5。后来忘记哪里看到，抛硬币其实还有第三个情况，就是竖起来，虽然概率真的很小，但依旧有这个概率。另外硬币正反两面的概率其实不一样，虽然差别很小，但真的不一样，因为硬币两面图案不一样，重量也就不一样，与空气摩擦力也不一样，之类的，造成硬币正反面之间的概率差。总结下我自己的观点，贝叶斯在采样数少时更具优势，频率派在采样数多时更精确。另外，自己有个疑问，使用贝叶斯的算法，能否察觉出正反两面硬币之间的概率差？如果出现的竖起来的硬币，两派又是如何处理这个问题的。极小但存在的概率，当你不知道有这样的事情发生时，压根没想过会发生这样的事？
作者回复: 虽然扔了很多次球，但从计算胜率的角度看，这场比赛其实只是一次独立的试验，根本不能依此对估计的精度做出推断。所以计算的错误并不能说明频率思想存在问题，只是对例子中的非观测变量处理不当。你说的有道理，频率需要大量重复实验来保证精确度，但贝叶斯可以将所有不确定因素的影响都体现在结果中，这是通过数学原理保证的，与数据量无关。正反面各0.5的概率是用来进行数学分析的理想的假设，在实际当中扔硬币其实根本不是随机事件，当所有的参数——出手角度、空气阻力等等全都已知时，硬币的正反面就是可以计算的确定结果。所以硬币这个问题要当成理想的数学模型来看，无需纠结概率差和站起来的问题。
2018-06-07

1
林彦
有具体的例子，公式推导，例子来自于难度适当的文献并给出完整的文献信息，概述理论并给出框架信息，对相关问题的与读者互动。王老师的专栏比较适合我这种入门级水平的读者更好地理解。从做老师的角度看您为学生考虑了不少。谢谢！最近我除了工作任务更多外，还在上一门有编程任务的数据分析类课程，努力挤出时间来跟上您专栏的进度。
作者回复: 给足压力才能让潜力完全释放，加油！
2018-06-07

1

收起评论