20 | 概率基础（上）：一篇文章帮你理解随机变量、概率分布和期望值

黄申



该思维导图由 AI 生成，仅供参考

你好，我是黄申。
相信你对变量这个概念并不陌生，数学方程式和编程代码里经常会用到变量。那什么是变量呢？我们在概率中常说的随机变量（ random variable）和普通的变量（variable）又有什么不同呢？
这些问题其实很简单，我一说你就明白了。
在没有发生运算之前，普通变量的值并不会发生变化，也就是说，它可以取不同的值，但是一旦取值确定之后，它总会是一个固定的值，除非有新的运算操作。
而随机变量的值并不固定，比如说，某个随机变量可能有 10% 的概率等于 10，有 20% 的概率等于 5，有 30% 的概率等于 28 等等。
我们上节说了，随机变量根据其取值是否连续，可分为离散型随机变量和连续型随机变量。举几个例子，抛硬币出现正反面的次数以及每周下雨的天数，都是离散的值，所以对应的随机变量为离散型。而汽车每小时行驶的速度和银行排队的时间，都是连续的值，对应的随机变量为连续型。
从计算的角度来说就是，我们可以直接求和得出的，就是“离散的”，需要用积分计算的，就是“连续的”。
而随机变量的取值对应了随机现象的一种结果。正是结果的不确定性，才导致了随机变量取值的不确定性，于是我们就引入了概率。我们可以说，每种值是以一定的概率出现的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入介绍了随机变量、概率分布和期望值的概念，以及它们在数学和编程中的应用。随机变量根据概率分布取不同的值，可分为离散型和连续型，而概率描述了每种值出现的可能性。通过Python代码模拟实验，展示了抛硬币和汽车行驶速度的概率分布，进一步介绍了离散分布模型（伯努利分布、分类分布）和连续分布模型（正态分布）。特别强调了正态分布在机器学习中的重要应用。文章通过简单的实例和图解，帮助读者快速了解了随机变量和概率分布的基本概念，为读者提供了深入了解和应用这些概念的基础。文章还介绍了期望值的概念，即每次随机结果的出现概率乘以其结果的总和。期望值在生活中有着广泛的应用，例如在复杂度分析和机器学习中。通过案例分析，读者可以更好地理解期望值的计算方法和实际应用。此外，文章还提到了离散型随机变量在计算机编程和机器学习中的广泛应用，以及思考题引导读者进行实际问题的思考和探索。总的来说，本文内容丰富，涵盖了概率论中的基本概念和实际应用，适合对概率和统计感兴趣的读者阅读学习。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《程序员的数学基础课》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(23)

最新
精选

渣渣辉
数学期望这块听的不是很懂
作者回复: 离散型的更容易理解，打个形象的例子，开门做生意，假设每条有三种可能，一种是生意满堂，一天能有10万的收入，一种是一半客人，一天收入只有5万，最后一种是没人来，一天收入为0，那么问每天收入“预期”是多少？由于有三种情况，我们不能直接说10万、5万还是0，只能看三种情况出现的概率分别是多少？如果客满的概率是1.0，其他两种是0.0，那么一天的收入是10*1.0=10万，如果客满的概率是0.5，半客满的概率是0.3，没人的概率是0.2，那么一天收入的“期望”就是10*0.5+5*0.3+0*0.2 = 6.5万
2020-03-25
2
37
吴宇晨
朋友圈觉得会是个正态分布😀
作者回复: 朋友圈的人数还是职业？人数通常是
2020-03-23

4
李皮皮皮皮皮
在正太分布图中坐标应该是离平均值的距离吧，所以横坐标的点应该是μ-1σ, μ+1σ，文中举例的范围应该是[μ-1σ,μ]
作者回复: 你说的是正态分布概率密度那张图吗？原图的范围是μ-3σ到μ+3σ
2019-02-24
2
4
风轨
老师，发现一个问题：文中那个“一维连续型随机变量的概率分布”图（就是标着大A的那个图）的所有随机事件的概率总和超过1了。按照文中的意思此图横坐标代表速度，纵坐标代表对应速度的概率。而所有事件的总概率等于所有点的概率之和，很显然[0,200]这个区间上有无穷多个点，且这个连续区间上的每一个点都对应一个正数概率，那么按照此图所描述的，所有事件的总概率是无穷大，这很显然是不对的。（后面还有很多内容，但留言提示我有“敏感词”，后面想办法贴出来）
作者回复: 可以想象点无穷多，不过还要我在积分公式漏的那个x，就不会无穷大了
2019-01-30

2
予悠悠
关于期望值有个问题不太懂，对于连续型随机变量，如果期望值是曲线下面积，那为什么正态分布的期望是μ呢？
作者回复: 纵轴是0-1之间，比如中间μ的概率只有0.4，你可以把整个面积离散化成直方图来想象，面积就是所有可能的值加权平均，权重是对应的概率，所以整个面积加起来就是μ
2019-01-30
3
2
栗景树
严格来说，连续型只存在于理论计算中，实际生活中的取数都是基于真正观察取值的那一时刻，也就相当于离散化了，只不过根据实际需要选择确定取数的间隔粒度。
作者回复: 是的
2022-01-04

1
点子王
概率分布就是一张值-概率的表，画成图就是直方图，连续型概率分布就是一张无限大的表，画成图即为单列无限小的频率分布直方图
作者回复: 没错
2021-04-13

1
聪明的竹子
课程讲得太细，而且多数都是概念。例子非常少！
作者回复: 这一讲主要是回顾一些基础概念，帮助大家有个整体的感觉，具体的应用例子会在后面的章节引入
2020-12-22

1
A君
随机变量的概率指的是变量的值出现的可能性。数学期望是各种不同情况的（随机变量）值的加权平均值。数学期望的计算很简单，但它隐含两个重要前提：1，如果权重等于概率，那要计算的情况必须是已经发生得足够多了，它的概率才准确；如果权重等于自定义值，那每个人计算出来的数学期望很可能千差万别没有可比性。2，数学期望值在足够长的时间维度下才有价值，短期内一个波动就可以远离期望值，比如大量买彩票这一行为，从长期来讲破产是肯定的，但如果只是偶尔买几下，那数学期望的指导意义就不大了。
作者回复: 彩票的例子很好
2021-01-13


鼠里鼠气
“蓝色区域上的数字，表示了这个区域的面积，也就是数据取值在这个范围内的概率。例如，数据取值在[-1σ, μ]之间的概率为 34.1%。” 不知道这一话里“数据取值在这个范围内的概率”是什么意思?
作者回复: 假设有一个随机变量，每次观察它都会产生一个随机的值，这些值会落在整个正态分布的区域内，而落在[-1σ, μ]的概率是34.1%
2020-11-19



收起评论