极客时间-轻松学习，高效学习-极客邦

风的轨迹

2018-06-12

王老师，综合贝叶斯主义以及频率主义这两节课，我理解总结为以下4点，不知道是否正确：
1. 在统计问题上，频率学派认为，参数是一个固定值（因为分布固定了嘛），数据是随机的，之后根据最大似然估计来求得参数值。但是这里有一个暗含的假设，就是如果参数固定那么分布也是固定的，也就是说我在讨论问题之前把模型固定好了，那么问题来了，模型是怎么确定的，你凭什么认为这个模型是最符合当下讨论问题的模型呢？于是就可以借此引出贝叶斯派的观点，贝叶斯学派认为，频率学派在选定模型的时候其实已然使用了先验的知识作为依据，相当于频率学派把问题人为简化成他们最优的一种情况。但是其实真实情况哪有那么简单，产生同一组数据的凭什么只能是一种模型，也有可能是多种模型，应该把所有可能产生样本数据的模型都纳入到考虑的范围之内，那么参数就变成了一个随机变量（因为分布不固定），而样本数据则是固定的，利用最大后验概率方法（所有可能产生这组数据的模型中，哪个模型生成这组数据的概率最大就选哪个模型）确定最优分布，进而得到参数。
2. 贝叶斯公式虽然简单，但是却揭示了一个深刻的道理，就是我们原有的知识以及现有的数据是如何影响我们对于某件事情的信念的。而且这个过程应该还是一个动态变化的过程。举一个粗浅的例子，一开始我不信中医，我对它的先验概率是20%，结果有一次生病，误打误撞被中医治好了，假设被中医治好是有一个概率的（而且我也知道），而且居然发生了，那么我就可以通过这两个概率得到一个新的后验概率，也就是我对中医的信任程度增加到40%，这个就作为下一次我再生病的时候的先验概率。这个更接近于现实。
3. 贝叶斯因为特别重视先验概率，而有的时候先验概率的获得极为困难，而且不一定客观，所以被频率主义诟病。
4. 贝叶斯计算的复杂度往往要比频率主义大得多，所以现实中退而求其次利用频率分布的方法来解决问题多一些。

展开

作者回复: 总结得非常好！但要说明的一点是一般来说，模型的形式是预先固定的（线性回归或者高斯混合或者其他）。在给定模型形式的前提下，贝叶斯可以通过后验来控制模型的参数和复杂度。



 25
彭擦擦සුභ නව ...

2018-08-21

频率派和贝叶斯派在理论层面势不两立（我是坚定的站贝叶斯）

而一旦到了应用层，就是谁好用就用谁：频率派偏向于收敛，就去解决已知问题的修改（置信区间、威尔逊算法）；贝叶斯偏向于迭代，则去解决未知问题的预测（贝叶斯网络）

作者回复: 贝叶斯虽然思想很棒，但运算太复杂，很多时候不接地气。要是效果差不多的话，频率方法一般是首选。



 5
林彦

2018-06-08

频率学派把一种未观测到的球落在哪个位置的概率当成了唯一的概率，参数也唯一。其他位置的概率根据已观测的数据虽然小一些，但完全都用同一概率代替会造成误差。我的理解观测的次数增加会降低这种误差(这过程中球落哪的概率不变)。

作者回复: 观测次数增加，最大似然估计的结果会越来越接近真实值。



 4
风的轨迹

2018-06-12

另外关于Alice和Bob的赌局，我也较一个真啊，虽说从频率学派来看，Alice赢的概率是一个确定值，但是就用8次观察的结果作为估计值也有点误差太大了吧，频率学派估计要喊冤

作者回复: 你说的对，这个例子不是用来说明频率主义是错误的，而是说它在非观察变量的处理上的确存在问题。如果说投球的次数增加，最大似然的估计肯定会越来越接近真实值。但在多次重复实验难以实现时，频率主义的劣势就会凸显。



 3
code-artist

2019-01-21

初出茅庐的小伙子，实践经验少，使用频率主义容易犯错。
多读书有利于在大脑中能形成准确的先验考虑。
每个人的头脑中的先验概率受父母，个人成长经历，读过的书，看过的影视剧等等因素所影响，因而对事物的判断不一样。
我们内心中的那份固执源于以往成功的经验或失败的教训

作者回复: 没错，其实贝叶斯才是更符合真实世界的那个方法论。



 2
李奇科

2018-06-07

我认为Bayes的最大缺点在于计算量（计算时间），而不是您讲的积分复杂程度和先验问题。实际研究中会发现Bayes的公式虽然看着复杂，但不难推导。这一点恰恰是Bayes的优势。这个优势也使得Bayes模型可以很flexible。而往往frequentist的问题的数学推导会十分复杂，（ingenious）。另外先验开率提供了incorporate更多信息的device。也不好简单的说是缺点。

作者回复: 贝叶斯和频率就是两种不同的思路，两者在概率、统计和机器学习里都有应用。我向大家介绍两者，并没有对哪个的偏爱，也不存在对它们优劣的评判。
频率的思路是由因及果，贝叶斯在此基础上进一步由果溯因，这是我所说“逆向概率”的含义，因为在频率学派里是没有先验后验的概念的。
贝叶斯的计算量就是来源于对积分的计算，原则上说，贝叶斯推理应该把所有的非观测变量积分掉，也就是marginalization，这是贝叶斯统计的核心。正是因为太多太复杂的积分求不出解析解，才要用复杂的计算去近似的。
贝叶斯更灵活是一点儿毛病也没有的，毕竟自带正则化特效。



 2
never_giveup

2018-06-10

老师，有个疑问，对于那个赌博问题，为什么只将p换成了条件概率下的p，1-p中的p不用换吗？

作者回复: (1-p)^3表示的是bob连胜3局这个事件发生的概率，在p取不同值时结果也不同，所以要积分。后面条件概率的含义是前面的p是真实值的可能性，或者说在5:3的数据给出的关于p的可信度。
你可以把p看成一个随机变量，后面的条件概率是随机变量的概率分布，(1-p)^3是随机变量的函数。



 1
不吐槽会死的喵星人

2018-06-07

基础差，听得迷迷糊糊的，也不确定自己听懂没。不过作业还是要交的。我觉得频率学派这次的失败主要是因为重复的实验次数太少了吧，假如次数足够多，求出概率的极限值，那得出的结婚也差不多了。这个我觉得反而是贝叶斯学派的优势，样品比较少时计算会更加精确。

我想起一个事，抛硬币，以前我以为抛硬币的正反两面概率都为0.5。后来忘记哪里看到，抛硬币其实还有第三个情况，就是竖起来，虽然概率真的很小，但依旧有这个概率。另外硬币正反两面的概率其实不一样，虽然差别很小，但真的不一样，因为硬币两面图案不一样，重量也就不一样，与空气摩擦力也不一样，之类的，造成硬币正反面之间的概率差。

总结下我自己的观点，贝叶斯在采样数少时更具优势，频率派在采样数多时更精确。

另外，自己有个疑问，使用贝叶斯的算法，能否察觉出正反两面硬币之间的概率差？如果出现的竖起来的硬币，两派又是如何处理这个问题的。极小但存在的概率，当你不知道有这样的事情发生时，压根没想过会发生这样的事？

展开

作者回复: 虽然扔了很多次球，但从计算胜率的角度看，这场比赛其实只是一次独立的试验，根本不能依此对估计的精度做出推断。所以计算的错误并不能说明频率思想存在问题，只是对例子中的非观测变量处理不当。
你说的有道理，频率需要大量重复实验来保证精确度，但贝叶斯可以将所有不确定因素的影响都体现在结果中，这是通过数学原理保证的，与数据量无关。
正反面各0.5的概率是用来进行数学分析的理想的假设，在实际当中扔硬币其实根本不是随机事件，当所有的参数——出手角度、空气阻力等等全都已知时，硬币的正反面就是可以计算的确定结果。所以硬币这个问题要当成理想的数学模型来看，无需纠结概率差和站起来的问题。



 1
林彦

2018-06-07

有具体的例子，公式推导，例子来自于难度适当的文献并给出完整的文献信息，概述理论并给出框架信息，对相关问题的与读者互动。王老师的专栏比较适合我这种入门级水平的读者更好地理解。从做老师的角度看您为学生考虑了不少。谢谢！最近我除了工作任务更多外，还在上一门有编程任务的数据分析类课程，努力挤出时间来跟上您专栏的进度。

作者回复: 给足压力才能让潜力完全释放，加油！



 1
李奇科

2018-06-07

对王老师的逆向概率不是很赞同。Bayes研究中不少是用generative model的



 1
Ronnyz

2020-02-03

贝叶斯建立在有一定先验知识后进行判断




Geek_59

2020-01-27

极客时间
21天打卡行动 40/21
<<机器学习40讲/02>>贝叶斯视角下的机器学习
今日所学:
1,概率表示的是客观上事件的可信程度（degree of belief），也可以说成是主观上主体对事件的信任程度，它是建立在对事件的已有知识基础上的。
2,贝叶斯定理用来解决“逆向概率问题;
3,先验概率是指根据以往经验和分析得到的概率;
4,贝叶斯定理的意义正是在于将先验概率和后验概率关联起来，刻画了数据对于知识和信念的影响。
5,贝叶斯统计则恰恰相反：它将待估计的参数视为随机变量，用来估计的数据反过来是确定的常数，讨论观测数据的概率分布才是没有意义的;
6,相对于频率主义的最大似然估计，贝叶斯主义在参数估计中倾向于使后验概率最大化，使用最大后验概率估计（maximum a posteriori estimation）。
7,后验概率正比于先验概率和似然概率的乘积，这意味着后验概率实质上就是用先验概率对似然概率做了个加权处理;
8,当已有的知识实在不足以形成先验信息时，贝叶斯主义的处理方式是引入无信息先验;
9,在平坦先验之下，最大后验估计和最大似然估计是等效的;
10,在贝叶斯主义看来，所谓不同的模型其实就是不同概率分布的参数化表示，使用的参数也有它们自己的先验分布，但所有模型的共同点是它们都能生成训练数据集，而模型选择的任务就是从这些概率分布中挑出一个最好的。
11,可信度实际上就是归一化的似然函数 p(D | M)，表示的是模型 M 生成数据 D 的条件概率。
12,贝叶斯方法的缺点了：一是对未知变量的积分运算会导致极高的计算复杂度;二是对先验分布的设定（prior specification）包含一定的主观性，因而一直不招老派的统计学家待见。正是这两个原因限制了贝叶斯方法的广泛应用。
重点:
1,贝叶斯学派认为概率是事件的可信程度或主体对事件的信任程度；
2, 贝叶斯学派执行参数估计时，视参数为随机变量，视数据为确定取值；
3,贝叶斯学派主要使用最大后验概率法，让参数在先验信息和给定数据下的后验概率最大化；
4,贝叶斯学派对应机器学习中的概率图模型，可以在模型预测和选择中提供更加完整的信息。

展开




快乐飞翔

2019-11-05

王老师，能帮忙详细讲解一下Jo患病概率的公式是怎么推导出来的吗？实在没理解，感觉一下子就跳出来了，谢谢了

作者回复: 出现jo类似症状有两种可能：有病和没病。没病的可能性是0.95，但没病也会出现症状的概率是0.01两者相乘就是jo没病的概率。同理jo有病的概率就是有病的可能性0.05乘以有病并出现症状的可能性0.95。两者做个归一化就可以得到0.16的结果。




ou叮当

2019-09-07

作为一名程序员，之前自学机器学习第一座大山就是数学，主要就是不知道学哪些数学，不知道怎么学，也不知道怎么用，直到遇见了这个课程。

作者回复: 希望专栏能对你有所帮助




杨涛涛

2019-09-06

对贝叶斯求极限 +oo 时间上的无穷大。就是频率学派。？
贝叶斯，的确定性是，对已发生的。
频率学派的确定性概率，为到未来的额+oo？

作者回复: 并不是。概率和牛顿力学一样，没有时间这个概念。贝叶斯相当于先给待估计的对象赋了一个先验分布，这是最核心的特点。




古月

2019-08-19

稍作分析就不难发现，只要 p(brainwash|lie)>0.5p(brainwash|lie)>0.5，谎言的后验概率就会大于先验概率。这个没看出来呀，怎么得出来的？

作者回复: 把等式左侧的后验概率看作等式右侧p(b|l)的函数，就会发现这个函数是个增函数。当p(b|l)=0.5时，后验等于先验，所以随着p(b|l)增加，后验就大于先验了。




阿土伯

2019-02-27

频率学派可否看成是贝叶斯学派的一种特例呢？因为频率学派假定参数是不便的，这个观点就属于先验概率吧？

作者回复: 两者更像是两条不同的路。




小刀

2019-01-23

公式怎么都显示的看起来很难受啊？？




秦龙君

2019-01-10

学习了。




你不是我

2018-06-07

我认为，概率学，就是在给定的概率上，直接做计算，概率已定，所以需要大量数据作为依靠！频率学则是认为概率是随机变动的，如赌博的例子，下面第一把为3/8，如果赢了，概率就改成了4/9，所以p是流动的，谁优谁劣不好说，这可能和已有数据量有很大关系。

作者回复: 观测次数越多，最大似然的结果会越接近真实值。



