人工智能基础课
王天一
工学博士,副教授
58937 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
开篇词 (1讲)
人工智能基础课
15
15
1.0x
00:00/00:00
登录|注册

05 数学基础 | 万物皆数,信息亦然:信息论

在推断未知分布时不引入多余约束和假设
描述两个概率分布之间的差异
描述一个信源提供的关于另一个信源的不确定性的消除
描述在已知一个信源条件下另一个信源的不确定性
描述信源每发送一个符号所提供的平均信息量
信息的不确定性和可测量性之间的桥梁
单个信源的信息量
在分类问题中求解不确定性最大的条件分布
解决信息增益依赖于数据集信息熵的问题
用于分类特征的选择
最大熵原理
KL散度
互信息
条件熵
信源熵
信息熵的概念
信息的抽象为逻辑符号
克劳德·香农的《通信的数学理论》
概率与信息在人工智能中的应用
概率与信息的关系
最大熵模型
信息增益比
信息增益
信息论的诞生与发展
不确定性是客观世界的本质属性
概率与信息对人工智能的启示
信息论在人工智能中的应用
信息论基础
信息论在人工智能的应用

该思维导图由 AI 生成,仅供参考

近年来的科学研究不断证实,不确定性才是客观世界的本质属性。换句话说,上帝还真就掷骰子。不确定性的世界只能使用概率模型来描述,正是对概率的刻画促成了信息论的诞生。
1948 年,供职于美国贝尔实验室的物理学家克劳德·香农发表了著名论文《通信的数学理论》(A Mathematical Theory of Communication),给出了对信息这一定性概念的定量分析方法,标志着信息论作为一门学科的正式诞生。
香农在《通信的数学理论》中开宗明义:“通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。消息通常有意义,即根据某种体系,消息本身指向或关联着物理上或概念上的特定实体。但消息的语义含义与工程问题无关,重要的问题是一条消息来自于一个所有可能的消息的集合。”
这样一来,所有类型的信息都被抽象为逻辑符号,这拓展了通信任务的范畴与信息论的适用性,也将信息的传播和处理完全剥离。
信息论使用“信息熵”的概念,对单个信源的信息量和通信中传递信息的数量与效率等问题做出了解释,并在世界的不确定性和信息的可测量性之间搭建起一座桥梁
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

信息论作为一门数学理论,致力于量化和传输信息。本文介绍了信息论的基本概念和应用,包括信息熵、条件熵、互信息、信息增益、KL散度和最大熵原理。这些概念在机器学习和人工智能领域具有重要意义,为处理不确定性和建立分类模型提供了理论基础。最大熵原理在分类问题中的应用尤为突出,通过无偏估计量和约束优化问题,确定最不确定性的条件分布。信息论建立在概率基础上,但其形式多样,除了香农熵外还有其他熵的定义。这些概念和原理为人工智能领域提供了重要的理论支持,对于处理不确定性和建立分类模型具有重要意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《人工智能基础课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(24)

  • 最新
  • 精选
  • Mr.Button
    为什么log以2为底的函数这么常见...这里为什么取2

    作者回复: 以2为底计算出的单位就是二进制的比特。

    2018-08-13
    2
    12
  • 井中月
    王老师,感谢您的回复。但是我还有点疑惑,X表示的是训练集的某个特征,Y相当于是训练集中需要被分类的变量,那么这样的话H(Y)就是一个定值,用它做分母和直接使用信息增益进行特征选择不就是一样的吗?

    作者回复: 感谢你指出,这里的符号写的不够清晰,H(Y)其实应该写成H_X(Y)。H(Y)是直接用数据的分类结果计算出来的信息熵,H_X(Y)的下标X表示的是以特征X的取值为变量对数据集计算出的信息熵。所以当关注的特征X不同时,H_X(Y)也是不一样的。 信息增益比主要用在决策树当中,作用是消除多个取值的特征导致的偏差,因为多值特征的信息增益很大,但泛化性能却很差。比如,使用姓名作为特征可以得到较大的信息增益,因为它基本可以把每个人区分开来,但这种区分对于分类显然没什么帮助。这时就可以用信息增益比来一定程度上消除对多值属性的偏向性,但也不能完全消除。

    2018-03-03
    6
  • 夜星辰
    有一点理解上的困惑希望王老师帮忙解答下 1. 熵表示的是信息量大小,从公式中知道随着概率增大,熵会变小。而机器学习中常用交叉熵作为目标函数,学习的过程是不断求取最小熵,也就是求取概率最大的参数,等价于极大似然估计法进行参数估计。 2. 但是我无法上述理解1和最大熵原理联系起来,请老师佐证下问题

    作者回复: 最大熵表示的是对未知的部分不做任何多余的假设,所以要选择符合已有知识但不确定性最大,也就是熵最大的分布,通俗说就是不要不懂装懂。对交叉熵的最小化意味着数据训练的模型要尽可能地接近真实模型,而真实模型又是建立在最大熵的前提下的。所以在优化时,要不断地调整训练的模型,以期更接近真实情况。

    2018-03-05
    4
  • Naraka,
    老师,不知道现在提问还会不会回答, “从这个角度看,最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设,因而可以得到最不确定的结果,预测的风险也就最小。” 这一段没有看懂,为什么得到最不确定的结果,预测风险会最小?最不确定的,可能性很多,预测的结果不也更吗?

    作者回复: 最大熵考虑的是最随机的情况,不做任何多余假设,所以可以认为它最符合实际。虽然得到的结果有最大的不确定性,但这种不确定性和真实情况是匹配的,真实世界就是这么不确定,我们不能人为地去增加信息。就像拿到一个骰子,我们会默认每个面出现的概率都是1/6,这就是最大熵思想。

    2019-03-25
    3
  • 水木竹水
    首先感谢老师讲的非常好。有个疑惑问下老师,信息增益是H(Y)-H(Y|X),后者是已知X情况下Y的不确定性,信息增益就是X对Y的确定性消除。H(Y|X)越小,说明X对Y的分类效果越好,为何决策树不直接用H(Y|X)选取主要特征,而用信息增益,H(Y)是变化的吗?

    作者回复: 数据集确定了,总体的信息熵H(Y)就是常量,所以两个其实是等效的。之所以选信息增益一方面在于它和信息论一脉相承,意义清晰;另一方面,在取值上信息增益是越大越好,如果选一个越小越好的指标,有些反直觉。

    2018-07-06
    3
  • 星运里的错
    信息增益表示的就是特征 X带来的对训练集 Y 分类不确定性的减少程度,也就是特征 X 对训练集 YY的区分度。 这句话意思是 总体熵-某个特征下的熵 =去除某个特征影响的熵 老师。这个公式对么? 我的理解是 熵对应着信息量的多少。熵大,意味着信息量大,信息混杂,也就是不确定性大。 当用到决策树中时,要保证分支所考虑的不确定性最小,也就是可用信息量纯净(少),所以我们要用使 某个特征影响的熵 最小的那个特征进行分支,也就是信息增益越大。 我感觉。。。我理解的好乱。求老师解惑下

    作者回复: 总体熵 - 特征分类之后每个类别的熵的总和 = 特征的信息增益 这里的信息增益表示的是分类之后残留的不确定度。如何一个特征能够将两个类别完全正确地分开,那它的信息增益是最大的,就等于数据集的熵。

    2018-05-19
    3
  • 井中月
    王老师,您好,我有个疑问,信息增益比里面的分母是不是应该是H(X)?

    作者回复: 分母是训练数据集的信息熵,因为这里把训练集定为Y,所以分母就是H(Y)。

    2018-03-01
    1
  • 卡斯瓦德
    看完这篇,突然觉得所谓的奇迹,其实就是信息熵不对等的结果,从某个面如何环境,物质看概率为百万分之一,从另一个面如自主意念等,概率可能就是十分之一,那么事件成就的结果其实就是KL后,不同的结果,饿可能总结有点问题,但是有那么个方向的感觉

    作者回复: 奇迹其实就是小概率事件的发生

    2018-02-01
    1
  • chucklau
    嗯,这篇的内容很难理解,希望有其它更多的相关资料,谢谢老师。

    作者回复: 可以参考MacKay的《信息论,推理与学习算法》

    2017-12-30
    1
  • 姑射仙人
    可以参考数学之美第二版,第六章 - 信息的度量和作用
    2019-01-21
    2
    10
收起评论
显示
设置
留言
24
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部