05 数学基础 | 万物皆数,信息亦然:信息论
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
信息论作为一门数学理论,致力于量化和传输信息。本文介绍了信息论的基本概念和应用,包括信息熵、条件熵、互信息、信息增益、KL散度和最大熵原理。这些概念在机器学习和人工智能领域具有重要意义,为处理不确定性和建立分类模型提供了理论基础。最大熵原理在分类问题中的应用尤为突出,通过无偏估计量和约束优化问题,确定最不确定性的条件分布。信息论建立在概率基础上,但其形式多样,除了香农熵外还有其他熵的定义。这些概念和原理为人工智能领域提供了重要的理论支持,对于处理不确定性和建立分类模型具有重要意义。
《人工智能基础课》,新⼈⾸单¥59
全部留言(24)
- 最新
- 精选
- Mr.Button为什么log以2为底的函数这么常见...这里为什么取2
作者回复: 以2为底计算出的单位就是二进制的比特。
2018-08-13212 - 井中月王老师,感谢您的回复。但是我还有点疑惑,X表示的是训练集的某个特征,Y相当于是训练集中需要被分类的变量,那么这样的话H(Y)就是一个定值,用它做分母和直接使用信息增益进行特征选择不就是一样的吗?
作者回复: 感谢你指出,这里的符号写的不够清晰,H(Y)其实应该写成H_X(Y)。H(Y)是直接用数据的分类结果计算出来的信息熵,H_X(Y)的下标X表示的是以特征X的取值为变量对数据集计算出的信息熵。所以当关注的特征X不同时,H_X(Y)也是不一样的。 信息增益比主要用在决策树当中,作用是消除多个取值的特征导致的偏差,因为多值特征的信息增益很大,但泛化性能却很差。比如,使用姓名作为特征可以得到较大的信息增益,因为它基本可以把每个人区分开来,但这种区分对于分类显然没什么帮助。这时就可以用信息增益比来一定程度上消除对多值属性的偏向性,但也不能完全消除。
2018-03-036 - 夜星辰有一点理解上的困惑希望王老师帮忙解答下 1. 熵表示的是信息量大小,从公式中知道随着概率增大,熵会变小。而机器学习中常用交叉熵作为目标函数,学习的过程是不断求取最小熵,也就是求取概率最大的参数,等价于极大似然估计法进行参数估计。 2. 但是我无法上述理解1和最大熵原理联系起来,请老师佐证下问题
作者回复: 最大熵表示的是对未知的部分不做任何多余的假设,所以要选择符合已有知识但不确定性最大,也就是熵最大的分布,通俗说就是不要不懂装懂。对交叉熵的最小化意味着数据训练的模型要尽可能地接近真实模型,而真实模型又是建立在最大熵的前提下的。所以在优化时,要不断地调整训练的模型,以期更接近真实情况。
2018-03-054 - Naraka,老师,不知道现在提问还会不会回答, “从这个角度看,最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设,因而可以得到最不确定的结果,预测的风险也就最小。” 这一段没有看懂,为什么得到最不确定的结果,预测风险会最小?最不确定的,可能性很多,预测的结果不也更吗?
作者回复: 最大熵考虑的是最随机的情况,不做任何多余假设,所以可以认为它最符合实际。虽然得到的结果有最大的不确定性,但这种不确定性和真实情况是匹配的,真实世界就是这么不确定,我们不能人为地去增加信息。就像拿到一个骰子,我们会默认每个面出现的概率都是1/6,这就是最大熵思想。
2019-03-253 - 水木竹水首先感谢老师讲的非常好。有个疑惑问下老师,信息增益是H(Y)-H(Y|X),后者是已知X情况下Y的不确定性,信息增益就是X对Y的确定性消除。H(Y|X)越小,说明X对Y的分类效果越好,为何决策树不直接用H(Y|X)选取主要特征,而用信息增益,H(Y)是变化的吗?
作者回复: 数据集确定了,总体的信息熵H(Y)就是常量,所以两个其实是等效的。之所以选信息增益一方面在于它和信息论一脉相承,意义清晰;另一方面,在取值上信息增益是越大越好,如果选一个越小越好的指标,有些反直觉。
2018-07-063 - 星运里的错信息增益表示的就是特征 X带来的对训练集 Y 分类不确定性的减少程度,也就是特征 X 对训练集 YY的区分度。 这句话意思是 总体熵-某个特征下的熵 =去除某个特征影响的熵 老师。这个公式对么? 我的理解是 熵对应着信息量的多少。熵大,意味着信息量大,信息混杂,也就是不确定性大。 当用到决策树中时,要保证分支所考虑的不确定性最小,也就是可用信息量纯净(少),所以我们要用使 某个特征影响的熵 最小的那个特征进行分支,也就是信息增益越大。 我感觉。。。我理解的好乱。求老师解惑下
作者回复: 总体熵 - 特征分类之后每个类别的熵的总和 = 特征的信息增益 这里的信息增益表示的是分类之后残留的不确定度。如何一个特征能够将两个类别完全正确地分开,那它的信息增益是最大的,就等于数据集的熵。
2018-05-193 - 井中月王老师,您好,我有个疑问,信息增益比里面的分母是不是应该是H(X)?
作者回复: 分母是训练数据集的信息熵,因为这里把训练集定为Y,所以分母就是H(Y)。
2018-03-011 - 卡斯瓦德看完这篇,突然觉得所谓的奇迹,其实就是信息熵不对等的结果,从某个面如何环境,物质看概率为百万分之一,从另一个面如自主意念等,概率可能就是十分之一,那么事件成就的结果其实就是KL后,不同的结果,饿可能总结有点问题,但是有那么个方向的感觉
作者回复: 奇迹其实就是小概率事件的发生
2018-02-011 - chucklau嗯,这篇的内容很难理解,希望有其它更多的相关资料,谢谢老师。
作者回复: 可以参考MacKay的《信息论,推理与学习算法》
2017-12-301 - 姑射仙人可以参考数学之美第二版,第六章 - 信息的度量和作用2019-01-21210