机器学习40讲
王天一
工学博士,副教授
立即订阅
8040 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

01 | 频率视角下的机器学习

王天一 2018-06-05
在“人工智能基础课”中我曾提到,“概率”(probability)这个基本概念存在着两种解读方式,它们分别对应着概率的频率学派(Frequentist)和贝叶斯学派(Bayesian)。而解读方式上的差异也延伸到了以概率为基础的其他学科,尤其是机器学习之中。
根据机器学习领域的元老汤姆·米切尔(Tom M. Mitchell)的定义,机器学习(machine learning)是一门研究通过计算的手段利用经验来改善系统自身性能的学科。
现如今,几乎所有的经验都以数据的形式出现,因而机器学习的任务也就变成了基于已知数据构造概率模型,反过来再运用概率模型对未知数据进行预测与分析。如此一来,关于概率的不同认识无疑会影响到对模型的构建与解释。
可在概率的应用上,频率学派和贝叶斯学派的思路呈现出天壤之别,这种思维上的差异也让两派的拥护者势同水火,都视另一方为异端邪说。正因如此,在这个专栏的前两篇文章中,我将首先和你理清频率学派与贝叶斯学派对概率的不同观点,为接下来从不同的角度理解机器学习的各种算法打下扎实的基础。
下面这个流传已久的笑话,不经意间对频率学派和贝叶斯学派的区别给出了形象的解释:有个病人找医生看病,医生检查之后对他说:“你这病说得上是九死一生,但多亏到我这里来看了。不瞒你说,在你之前我已经看了九个得一同样病的患者,结果他们都死了,那你这第十个就一定能看得好啦,妥妥的!”
如果病人脑子没事,肯定就从这个糊涂医生那里跑了。显然,医生在看待概率时秉持的是频率主义的观点,但却是个蹩脚的频率主义者。之所以说他是频率主义者,是因为他对九死一生的理解就是十次手术九次失败一次成功;说他蹩脚则是因为他不懂频率学派的基础,区区九个病人就让他自以为掌握了生死的密码。
归根到底,频率学派口中的概率表示的是事件发生频率的极限值,它只有在无限次的独立重复试验之下才有绝对的精确意义。在上面的例子中,如果非要从频率的角度解释“九死一生”的话,这个 10% 的概率只有在样本容量为无穷大时才有意义。因此即使“九死一生”的概率的确存在,它也不能确保第十个病人的康复。
在频率学派眼中,当重复试验的次数趋近于无穷大时,事件发生的频率会收敛到真实的概率之上。这种观点背后暗含了一个前提,那就是概率是一个确定的值,并不会受单次观察结果的影响。
将一枚均匀的硬币抛掷 10 次,结果可能是 10 次都是正面,也可能 10 次都是反面,写成频率的话就对应着 0% 和 100% 这两个极端,代表着最大范围的波动。可如果将抛掷次数增加到 100 次,出现正面的次数依然会发生变化,但波动的范围更可能会收缩到 40% 到 60% 之间。再将抛掷次数增加到 1000,10000 的话,频率波动的现象不会消失,但波动的范围会进一步收缩到越来越小的区间之内。
基于以上的逻辑,把根据频率计算概率的过程反转过来,就是频率统计估计参数的过程。频率统计理论的核心在于认定待估计的参数是固定不变的常量,讨论参数的概率分布是没有意义的;而用来估计参数的数据是随机的变量,每个数据都是参数支配下一次独立重复试验的结果。由于参数本身是确定的,那频率的波动就并非来源于参数本身的不确定性,而是由有限次观察造成的干扰而导致
这可以从两个角度来解释:一方面,根据这些不精确的数据就可以对未知参数的精确取值做出有效的推断;另一方面,数据中包含的只是关于参数不完全的信息,所以从样本估计整体就必然会产生误差。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(29)

  • Float
    按照频率学派,由最大似然估计写出似然函数L=p^5(1-p)^3,令一阶导=0得出p=5/8,Bob要连赢三局才能反败为胜,则Bob获胜的概率为(3/8)^3。

    作者回复: Bingo!

    2018-06-05
    32
  • Tiger
    分享个人的学习总结,不对的地方请老师指正:
        频率主义认为参数本身是固定的,只是我们不知道,而数据是关于参数的不完全的信息,这就需要我们通过某种手段(比如极大似然法)利用数据找到最优参数。又由于数据是随机的,所以每使用一组不同的数据,找到的参数都不同,但这与参数本身是固定的并不矛盾。这是因为受噪声等因素的影响,数据并非参数的真实反映(否则就可以把固定的参数找到),存在风险,而要计算风险,需要已知数据的真实分布,而数据的真实分布又依赖于参数,这似乎就陷入了一个“先有鸡还是先有蛋”的悖论,为了解决这个悖论,引入经验风险,用训练数据的分布替代真实分布,使得风险可以被计算(这时的风险就称为经验风险),那么通过最小化经验风险就可以找出最优的参数。

    作者回复: 总结得很到位!

    2019-01-07
    1
    8
  • 快乐的小傻子
    数学是基础,概率论和统计学要补补咯
    2018-06-06
    5
  • 占小狼的堂哥【芋道源码】芋艿狼
    第二小节有点难……

    作者回复: 具体问题是?

    2018-06-05
    2
  • 行者
    看来真的得好好补补数学了、看到数学公式一脸懵
    2018-11-21
    1
  • 晴子
    L=p^5(1-p)^3, 对L求一阶导,怎么求出P=3/8

    作者回复: 先对L求对数,再对对数求一阶导,就容易得出了。

    2018-10-15
    1
  • 明臻
    置信区间的概率是不是写错了,应该是1-阿尔法。

    作者回复: 感谢细致的阅读👍对置信区间的数学定义定然是1-\alpha,但文章里写的并非严格定义,而是对概念的直观理解,相当于对置信区间的意义做个解释。这时说有100*(1-\alpha)枪打中看着就有些别扭了。当然,这里的\alpha有一些误导性,换一个符号会更恰当。

    2018-10-13
    1
  • velly
    参数定义是什么,不怎么理解。

    作者回复: 参数就是决定模型特性的系数,一般是未知的,需要利用数据来估计。像直线y=ax+b,a和b就是参数。

    2018-09-29
    1
  • 朱沛
    大学数学没学好的是不是应该先补数学?

    作者回复: 是的,理解原理需要线代和概率,做算法需要最优化。

    2018-06-22
    1
  • never_giveup
    说下个人的对最后问题理解,p是待估计的参数 ,5:3是给出的数据。最大似然使在p条件下产生数据的可能性最大,进而求极值算出p。

    作者回复: 没毛病!

    2018-06-10
    1
  • 洪漫楷
    没有图帮助理解的吗

    作者回复: 这一篇没有,后面会有的

    2018-06-08
    1
  • .Yang
    我勒个去,看到一半跟不上了

    作者回复: 具体问题是?

    2018-06-05
    1
  • 墨雨
    我,一脸懵逼……
    2019-10-15
  • ttttt
    上代码:python3 安装sympy包,pip install sympy
    from sympy import *
    # 定义符号p
    p = Symbol('p')
    L = p**5 * (1-p)**3
    # 求导
    d_L = diff(L, p)
    # 解方程
    res = solve(d_L, p)
    # res = [0, 5/8, 1]

    作者回复: 这是最大似然的解法

    2019-09-20
  • 游戏人生
    求解似然函数的对数,就可以将乘法运算转换为加法运算,中(θ_i-θ)^2/2σ^2 多了一个1/2吧,应该是

    (θ_i-θ)^2/σ^2,不是log⁡L 是ln⁡L吧。

    作者回复: 1/2那里感谢指正,log和ln只是差一个底数,其实底数是多少都不影响。

    2019-05-31
  • WS
    观测数据sita的概率分布式子,看不懂,能解释一下吗?

    作者回复: \theta指固定的真实值,\theta_i是在真实值的基础上加了个高斯噪声,所以条件概率就是高斯分布的形式。

    2019-05-18
  • 浓眉和叶孤橙
    王老师,您好,我想问下,我现在学习概率图模型很吃力,有没有比较好的学习资料推荐,适合初学者?谢谢王老师

    作者回复: 吃力恐怕不是你自己的问题,而是这个方向本身难度就很大,参考资料也不多。比较好的就是koller那本大书,但不适合自学,其他值得推荐的恐怕也没什么了……

    2019-04-23
  • 方得
    还是是统计学专业,感觉有点蒙,但是大概还是了解的。
    2019-03-26
  • 李小文
    log(L)运算怎么算的?后面的指数函数部分怎么提出的-1/2的呀!
    2019-03-21
  • 李小文
    从理论上说,在功率有限的条件下,高斯噪声的信源熵最大,因而带来的不确定性也就越大,换句话说,这是最恶劣的噪声;
    (为什么功率有限,就是高斯噪声的信源熵最大呢?)

    作者回复: 这个说来话长了,就把它当个现成的结论吧。

    2019-03-21
收起评论
29
返回
顶部