作者回复: 总结得非常好!但要说明的一点是一般来说,模型的形式是预先固定的(线性回归或者高斯混合或者其他)。在给定模型形式的前提下,贝叶斯可以通过后验来控制模型的参数和复杂度。
作者回复: 贝叶斯虽然思想很棒,但运算太复杂,很多时候不接地气。要是效果差不多的话,频率方法一般是首选。
作者回复: 观测次数增加,最大似然估计的结果会越来越接近真实值。
作者回复: 你说的对,这个例子不是用来说明频率主义是错误的,而是说它在非观察变量的处理上的确存在问题。如果说投球的次数增加,最大似然的估计肯定会越来越接近真实值。但在多次重复实验难以实现时,频率主义的劣势就会凸显。
作者回复: 没错,其实贝叶斯才是更符合真实世界的那个方法论。
作者回复: 贝叶斯和频率就是两种不同的思路,两者在概率、统计和机器学习里都有应用。我向大家介绍两者,并没有对哪个的偏爱,也不存在对它们优劣的评判。
频率的思路是由因及果,贝叶斯在此基础上进一步由果溯因,这是我所说“逆向概率”的含义,因为在频率学派里是没有先验后验的概念的。
贝叶斯的计算量就是来源于对积分的计算,原则上说,贝叶斯推理应该把所有的非观测变量积分掉,也就是marginalization,这是贝叶斯统计的核心。正是因为太多太复杂的积分求不出解析解,才要用复杂的计算去近似的。
贝叶斯更灵活是一点儿毛病也没有的,毕竟自带正则化特效。
作者回复: (1-p)^3表示的是bob连胜3局这个事件发生的概率,在p取不同值时结果也不同,所以要积分。后面条件概率的含义是前面的p是真实值的可能性,或者说在5:3的数据给出的关于p的可信度。
你可以把p看成一个随机变量,后面的条件概率是随机变量的概率分布,(1-p)^3是随机变量的函数。
作者回复: 虽然扔了很多次球,但从计算胜率的角度看,这场比赛其实只是一次独立的试验,根本不能依此对估计的精度做出推断。所以计算的错误并不能说明频率思想存在问题,只是对例子中的非观测变量处理不当。
你说的有道理,频率需要大量重复实验来保证精确度,但贝叶斯可以将所有不确定因素的影响都体现在结果中,这是通过数学原理保证的,与数据量无关。
正反面各0.5的概率是用来进行数学分析的理想的假设,在实际当中扔硬币其实根本不是随机事件,当所有的参数——出手角度、空气阻力等等全都已知时,硬币的正反面就是可以计算的确定结果。所以硬币这个问题要当成理想的数学模型来看,无需纠结概率差和站起来的问题。
作者回复: 给足压力才能让潜力完全释放,加油!
作者回复: 出现jo类似症状有两种可能:有病和没病。没病的可能性是0.95,但没病也会出现症状的概率是0.01两者相乘就是jo没病的概率。同理jo有病的概率就是有病的可能性0.05乘以有病并出现症状的可能性0.95。两者做个归一化就可以得到0.16的结果。
作者回复: 希望专栏能对你有所帮助
作者回复: 并不是。概率和牛顿力学一样,没有时间这个概念。贝叶斯相当于先给待估计的对象赋了一个先验分布,这是最核心的特点。
作者回复: 把等式左侧的后验概率看作等式右侧p(b|l)的函数,就会发现这个函数是个增函数。当p(b|l)=0.5时,后验等于先验,所以随着p(b|l)增加,后验就大于先验了。
作者回复: 两者更像是两条不同的路。
作者回复: 观测次数越多,最大似然的结果会越接近真实值。