人工智能基础课
王天一
工学博士,副教授
58937 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
开篇词 (1讲)
人工智能基础课
15
15
1.0x
00:00/00:00
登录|注册

02 数学基础 | 月有阴晴圆缺,此事古难全:概率论

正态分布
指数分布
均匀分布
泊松分布
二项分布
两点分布
贝叶斯学派的概率理解方式
贝叶斯定理
贝叶斯公式
全概率公式
频率学派的概率定义
协方差和相关系数
方差
数学期望
连续型随机变量
离散型随机变量
最大后验概率法
最大似然估计法
贝叶斯学派
频率学派
数据爆炸式增长和计算力指数化增强
连接主义学派的兴起
生活中的实例
机器学习中的应用
随机变量的数字特征
随机变量和分布
概率的估计方法
概率论的基本概念
概率论作为人工智能研究的数学基础
应用
概率论在机器学习中的角色

该思维导图由 AI 生成,仅供参考

除了线性代数之外,概率论(probability theory)也是人工智能研究中必备的数学基础。随着连接主义学派的兴起,概率统计已经取代了数理逻辑,成为人工智能研究的主流工具。在数据爆炸式增长和计算力指数化增强的今天,概率论已经在机器学习中扮演了核心角色。
同线性代数一样,概率论也代表了一种看待世界的方式,其关注的焦点是无处不在的可能性。对随机事件发生的可能性进行规范的数学描述就是概率论的公理化过程。概率的公理化结构体现出的是对概率本质的一种认识。
将同一枚硬币抛掷 10 次,其正面朝上的次数既可能一次没有,也可能全部都是,换算成频率就分别对应着 0% 和 100%。频率本身显然会随机波动,但随着重复试验的次数不断增加,特定事件出现的频率值就会呈现出稳定性,逐渐趋近于某个常数。
从事件发生的频率认识概率的方法被称为“频率学派”(frequentist probability),频率学派口中的“概率”,其实是一个可独立重复的随机实验中单个结果出现频率的极限。因为稳定的频率是统计规律性的体现,因而通过大量的独立重复试验计算频率,并用它来表征事件发生的可能性是一种合理的思路。
在概率的定量计算上,频率学派依赖的基础是古典概率模型。在古典概率模型中,试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。如此一来,假设所有基本事件的数目为 n,待观察的随机事件 A 中包含的基本事件数目为 k,则古典概率模型下事件概率的计算公式为
从这一基本公式就可以推导出复杂的随机事件的概率。
前文中的概率定义针对都是单个随机事件,可如果要刻画两个随机事件之间的关系,这个定义就不够看了。在一场足球比赛中,球队 1:0 取胜和在 0:2 落后的情况下 3:2 翻盘的概率显然是不一样的。这就需要引入条件概率的概念。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

概率论在机器学习中扮演着核心角色,成为人工智能研究的主流工具之一。概率论关注的焦点是无处不在的可能性,通过对随机事件发生的可能性进行规范的数学描述,体现了对概率本质的认识。频率学派和贝叶斯学派是概率论的两种主要理论观点,分别强调事件发生的频率和随机事件的可信程度。在机器学习中,概率的估计有最大似然估计法和最大后验概率法两种方法,分别代表了频率学派和贝叶斯学派对概率的理解方式。贝叶斯学派的方法与人类的认知机制更加吻合,因此在机器学习领域扮演着更加重要的角色。此外,概率论还应用于描述随机变量,包括离散型随机变量和连续型随机变量,以及概率质量函数和概率密度函数的概念。因此,概率论在机器学习中具有重要意义,对于理解机器学习模型和进行参数估计都至关重要。文章还介绍了一些重要的离散分布和连续分布,以及随机变量的数字特征,如数学期望、方差和协方差。最后,强调了贝叶斯定理在机器学习中的广泛应用,鼓励读者思考生活中的实例,从已有的观测结果反推假设成立的情况。整体而言,本文深入浅出地介绍了概率论在机器学习中的重要性和应用,为读者提供了全面的概率论基础知识。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《人工智能基础课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(43)

  • 最新
  • 精选
  • 王天一
    置顶
    @Karl 一个优等生和一个差生打架,老师肯定认为是差生的错,因为差生爱惹事,这就是最大似然估计;可如果老师知道优生和差生之间原本就有过节(先验信息),把这个因素考虑进来,就不会简单地认为是差生挑衅,这就是最大后验估计。 两种方式分别对应不同的机器学习算法,具体应用在机器学习模块中分别有介绍。
    2017-12-13
    1
    201
  • 王天一
    置顶
    @yy 基础部分主要是引入概念,在后续的算法介绍中会涉及概念与方法的具体应用
    2017-12-12
    19
  • 漫漫越
    患病概率:(0.95*0.01)/(0.95*0.01+0.05*0.99)=16.1%

    作者回复: 完全正确!

    2019-03-14
    2
    13
  • 快乐松鼠蹦蹦跳
    @奋斗达人 这是一个贝叶斯定理应用的经典问题:有一种病在人群中的患病率是1%,其检查结果的可靠程度是95%,也就是得病的人95%会得到阳性结果,没得病的人95%会得到阴性结果。如果一个人检查的结果是阳性,那他得病的概率是多少? 用贝叶斯定理解决这个问题,得到的结果会出乎意料。 记得这样的题目,概率论学过,人工智能学过,但是总的都是模棱两可。现在学了这么多年,终于知道自己模糊的地方住在哪里了。套用贝叶斯公式求解,结果是0.1610

    作者回复: Bingo

    2018-06-05
    9
  • 小牛人
    得病的概率是16.1%

    作者回复: Bingo

    2018-05-25
    8
  • wolfog
    想问下天一老师,明天下雨的概率是85%那一段说贝叶斯学派认为概率是随机事件的可靠度。而频率学派则无法从频率的角度解释。我想问问频率学派无法解释的原因是下面的解释吗? 频率学派认为概率是随机事件在次数增多时频率的一个趋近值,而很显然明天下雨这个事件无法重复多次,所以频率学派的关于概率的定义明显就无法再这里定义。 感谢天一老师

    作者回复: 没错,这是一锤子买卖的事情

    2018-01-13
    8
  • 听天由己
    概率论从直觉上比线性代数容易理解,可还是要花时间去琢磨。 思考题我有几个想法: 1、产品中最常见的就是电商系统的推荐,亚马逊在一方面很早就开始实践,根据你已经买过的东西的信息来判断购买其他商品的可能性; 2、垃圾邮件过滤器,给定一封邮件,它是垃圾邮件的可能性是多大。机器甄别可能用处更大 3、第三就是拼写纠错与语义分词。 这几个方面是我结合实践生活和学习想到的,要真正将问题转化成模型与数学语言真的好难。

    作者回复: 没错,最常见的例子就是文本分类。建模确实难度很大,而且没有通用的规则,使用哪些工具需要具体情况具体分析。

    2017-12-27
    7
  • 凡拾
    思考题的理解—根据欺诈的结果推算哪种因素符合会最大概率出现欺诈,这算不算贝叶斯?2.在估计参数时,最大似然估计法只需要使用训练数据,最大后验概率法除了数据外还需要额外的信息,就是贝叶斯公式中的先验概率。为什么要额外信息不理解

    作者回复: 因为最大似然假定待估计的参数是固定的,估计的准确与否取决于数据;最大后验则认为参数也是随机变量,有自己的先验分布。这就是额外的信息,因为数据本身体现不出参数的先验特性。

    2018-03-22
    3
  • 凌波微步
    感觉在学校学的课程太渣了,枯燥的介绍公式,学完不知道怎么用,知识没有串起来。学了王老师这一课,受益匪浅,感觉学得很爽。后面的课程要坚持学下去!

    作者回复: 学校的课程也是很充实的,只是设计上有些问题。

    2018-10-25
    2
  • Rola
    英语专业的看不懂,怎么办

    作者回复: 刚刚接触确实需要循序渐进,阅读专栏时可以考虑结合科班的教材。

    2018-07-22
    2
收起评论
显示
设置
留言
43
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部