01 | 频率视角下的机器学习

王天一



该思维导图由 AI 生成，仅供参考

在“人工智能基础课”中我曾提到，“概率”（probability）这个基本概念存在着两种解读方式，它们分别对应着概率的频率学派（Frequentist）和贝叶斯学派（Bayesian）。而解读方式上的差异也延伸到了以概率为基础的其他学科，尤其是机器学习之中。
根据机器学习领域的元老汤姆·米切尔（Tom M. Mitchell）的定义，机器学习（machine learning）是一门研究通过计算的手段利用经验来改善系统自身性能的学科。
现如今，几乎所有的经验都以数据的形式出现，因而机器学习的任务也就变成了基于已知数据构造概率模型，反过来再运用概率模型对未知数据进行预测与分析。如此一来，关于概率的不同认识无疑会影响到对模型的构建与解释。
可在概率的应用上，频率学派和贝叶斯学派的思路呈现出天壤之别，这种思维上的差异也让两派的拥护者势同水火，都视另一方为异端邪说。正因如此，在这个专栏的前两篇文章中，我将首先和你理清频率学派与贝叶斯学派对概率的不同观点，为接下来从不同的角度理解机器学习的各种算法打下扎实的基础。
下面这个流传已久的笑话，不经意间对频率学派和贝叶斯学派的区别给出了形象的解释：有个病人找医生看病，医生检查之后对他说：“你这病说得上是九死一生，但多亏到我这里来看了。不瞒你说，在你之前我已经看了九个得一同样病的患者，结果他们都死了，那你这第十个就一定能看得好啦，妥妥的！”
如果病人脑子没事，肯定就从这个糊涂医生那里跑了。显然，医生在看待概率时秉持的是频率主义的观点，但却是个蹩脚的频率主义者。之所以说他是频率主义者，是因为他对九死一生的理解就是十次手术九次失败一次成功；说他蹩脚则是因为他不懂频率学派的基础，区区九个病人就让他自以为掌握了生死的密码。
归根到底，频率学派口中的概率表示的是事件发生频率的极限值，它只有在无限次的独立重复试验之下才有绝对的精确意义。在上面的例子中，如果非要从频率的角度解释“九死一生”的话，这个 10% 的概率只有在样本容量为无穷大时才有意义。因此即使“九死一生”的概率的确存在，它也不能确保第十个病人的康复。
在频率学派眼中，当重复试验的次数趋近于无穷大时，事件发生的频率会收敛到真实的概率之上。这种观点背后暗含了一个前提，那就是概率是一个确定的值，并不会受单次观察结果的影响。
将一枚均匀的硬币抛掷 10 次，结果可能是 10 次都是正面，也可能 10 次都是反面，写成频率的话就对应着 0% 和 100% 这两个极端，代表着最大范围的波动。可如果将抛掷次数增加到 100 次，出现正面的次数依然会发生变化，但波动的范围更可能会收缩到 40% 到 60% 之间。再将抛掷次数增加到 1000，10000 的话，频率波动的现象不会消失，但波动的范围会进一步收缩到越来越小的区间之内。
基于以上的逻辑，把根据频率计算概率的过程反转过来，就是频率统计估计参数的过程。频率统计理论的核心在于认定待估计的参数是固定不变的常量，讨论参数的概率分布是没有意义的；而用来估计参数的数据是随机的变量，每个数据都是参数支配下一次独立重复试验的结果。由于参数本身是确定的，那频率的波动就并非来源于参数本身的不确定性，而是由有限次观察造成的干扰而导致。
这可以从两个角度来解释：一方面，根据这些不精确的数据就可以对未知参数的精确取值做出有效的推断；另一方面，数据中包含的只是关于参数不完全的信息，所以从样本估计整体就必然会产生误差。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

机器学习的频率视角探讨了概率的频率学派和贝叶斯学派对模型构建与解释的影响。频率学派将概率视为事件发生频率的极限值，而贝叶斯学派将概率视为表达不确定性的一种方式。文章详细解释了频率学派的最大似然估计和置信区间的概念，并比较了频率学派和贝叶斯学派的观点和方法。频率学派在机器学习中应用了统计学习，通过最优化指标来估计模型参数取值，不考虑参数的不确定性，而是依赖数据相关的信息。然而，频率学派在计算风险时遇到了无法精确求解的问题，引入了经验风险来解决这一问题。文章以一个赌局的例子展示了频率主义的统计学应用，同时提出了跳出频率主义限制的思考。这篇文章为读者提供了对机器学习算法的不同理解角度，为进一步深入学习机器学习提供了扎实的基础。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(43)

最新
精选

Float
按照频率学派，由最大似然估计写出似然函数L=p^5(1-p)^3,令一阶导=0得出p=5/8，Bob要连赢三局才能反败为胜，则Bob获胜的概率为（3/8）^3。
作者回复: Bingo！
2018-06-05

80
Tiger
分享个人的学习总结，不对的地方请老师指正：频率主义认为参数本身是固定的，只是我们不知道，而数据是关于参数的不完全的信息，这就需要我们通过某种手段（比如极大似然法）利用数据找到最优参数。又由于数据是随机的，所以每使用一组不同的数据，找到的参数都不同，但这与参数本身是固定的并不矛盾。这是因为受噪声等因素的影响，数据并非参数的真实反映（否则就可以把固定的参数找到），存在风险，而要计算风险，需要已知数据的真实分布，而数据的真实分布又依赖于参数，这似乎就陷入了一个“先有鸡还是先有蛋”的悖论，为了解决这个悖论，引入经验风险，用训练数据的分布替代真实分布，使得风险可以被计算（这时的风险就称为经验风险），那么通过最小化经验风险就可以找出最优的参数。
作者回复: 总结得很到位！
2019-01-07
2
42
Ares
老师，先对L求对数，再对对数求一阶导的过程有么？另外为什么令一阶导=0什么意义？
作者回复: 求对数其实就是把乘除变成加减，因为对数不影响单调性。一阶导等于0求出的就是函数的极大值或者极小值。
2018-12-07
3
6
velly
参数定义是什么，不怎么理解。
作者回复: 参数就是决定模型特性的系数，一般是未知的，需要利用数据来估计。像直线y=ax+b，a和b就是参数。
2018-09-29

4
JustDoDT
上代码：python3 安装sympy包，pip install sympy from sympy import * # 定义符号p p = Symbol('p') L = p**5 * (1-p)**3 # 求导 d_L = diff(L, p) # 解方程 res = solve(d_L, p) # res = [0, 5/8, 1]
作者回复: 这是最大似然的解法
2019-09-20

3
游戏人生
求解似然函数的对数，就可以将乘法运算转换为加法运算，中(θ_i-θ)^2/2σ^2 多了一个1/2吧，应该是 (θ_i-θ)^2/σ^2，不是log⁡L 是ln⁡L吧。
作者回复: 1/2那里感谢指正，log和ln只是差一个底数，其实底数是多少都不影响。
2019-05-31

3
晴子
L=p^5(1-p)^3, 对L求一阶导，怎么求出P=3/8
作者回复: 先对L求对数，再对对数求一阶导，就容易得出了。
2018-10-15

3
明臻
置信区间的概率是不是写错了，应该是1-阿尔法。
作者回复: 感谢细致的阅读👍对置信区间的数学定义定然是1-\alpha，但文章里写的并非严格定义，而是对概念的直观理解，相当于对置信区间的意义做个解释。这时说有100*(1-\alpha)枪打中看着就有些别扭了。当然，这里的\alpha有一些误导性，换一个符号会更恰当。
2018-10-13

2
never_giveup
说下个人的对最后问题理解，p是待估计的参数，5:3是给出的数据。最大似然使在p条件下产生数据的可能性最大，进而求极值算出p。
作者回复: 没毛病！
2018-06-10

2
jeff
九死一生，我看到的是医生治疗成功率是0
作者回复: 多治几个病人，成功率可能就提高了
2018-06-07

2

收起评论