人工智能基础课
王天一
工学博士,副教授
立即订阅
12221 人已学习
课程目录
已完结 58 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 人工智能:新时代的必修课
免费
数学基础 (7讲)
01 数学基础 | 九层之台,起于累土:线性代数
02 数学基础 | 月有阴晴圆缺,此事古难全:概率论
03 数学基础 | 窥一斑而知全豹:数理统计
04 数学基础 | 不畏浮云遮望眼:最优化方法
05 数学基础 | 万物皆数,信息亦然:信息论
06 数学基础 | 明日黄花迹难寻:形式逻辑
(课外辅导)数学基础 | 拓展阅读参考书
机器学习 (10讲)
07 机器学习 | 数山有路,学海无涯:机器学习概论
08 机器学习 | 简约而不简单:线性回归
09 机器学习 | 大道至简:朴素贝叶斯方法
10 机器学习 | 衍化至繁:逻辑回归
11 机器学习 | 步步为营,有章可循:决策树
12 机器学习 | 穷则变,变则通:支持向量机
13 机器学习 | 三个臭皮匠,赛过诸葛亮:集成学习
14 机器学习 | 物以类聚,人以群分:聚类分析
15 机器学习 | 好钢用在刀刃上:降维学习
(课外辅导)机器学习 | 拓展阅读参考书
人工神经网络 (7讲)
16 人工神经网络 | 道法自然,久藏玄冥:神经网络的生理学背景
17 人工神经网络 | 一个青年才俊的意外死亡:神经元与感知器
18 人工神经网络 | 左手信号,右手误差:多层感知器
19 人工神经网络 | 各人自扫门前雪:径向基函数神经网络
20 人工神经网络 | 看不见的手:自组织特征映射
21 人工神经网络 | 水无至清,人莫至察:模糊神经网络
(课外辅导)人工神经网络 | 拓展阅读参考书
深度学习 (7讲)
22 深度学习 | 空山鸣响,静水流深:深度学习概述
23 深度学习 | 前方有路,未来可期:深度前馈网络
24 深度学习 | 小树不修不直溜:深度学习中的正则化
25 深度学习 | 玉不琢不成器:深度学习中的优化
26 深度学习 | 空竹里的秘密:自编码器
27 深度学习 | 困知勉行者勇:深度强化学习
(课外辅导)深度学习 | 拓展阅读参考书
深度学习框架下的神经网络 (5讲)
28 深度学习框架下的神经网络 | 枯木逢春:深度信念网络
29 深度学习框架下的神经网络 | 见微知著:卷积神经网络
30 深度学习框架下的神经网络 | 昨日重现:循环神经网络
31 深度学习框架下的神经网络 | 左右互搏:生成式对抗网络
32 深度学习框架下的神经网络 | 三重门:长短期记忆网络
深度学习之外的人工智能 (4讲)
33 深度学习之外的人工智能 | 一图胜千言:概率图模型
34 深度学习之外的人工智能 | 乌合之众的逆袭:集群智能
35 深度学习之外的人工智能 | 授人以鱼不如授人以渔:迁移学习
36 深度学习之外的人工智能 | 滴水藏海:知识图谱
应用场景 (4讲)
37 应用场景 | 你是我的眼:计算机视觉
38 应用场景 | 嘿, Siri:语音处理
39 应用场景 | 心有灵犀一点通:对话系统
40 应用场景 | 数字巴别塔:机器翻译
加餐 (5讲)
课外谈 | “人工智能基础课”之二三闲话
推荐阅读 | 我与人工智能的故事
直播回顾 | 机器学习必备的数学基础
第2季回归 | 这次我们来聊聊机器学习
新书 | 《裂变:秒懂人工智能的基础课》
复习课 (7讲)
一键到达 | 数学基础复习课
一键到达 | 机器学习复习课
一键到达 | 人工神经网络复习课
一键到达 | 深度学习复习课
一键到达 | 深度学习框架下的神经网络复习课
一键到达 | 深度学习之外的人工智能复习课
一键到达 | 应用场景复习课
结束语 (1讲)
结课 | 溯洄从之,道阻且长
人工智能基础课
登录|注册

05 数学基础 | 万物皆数,信息亦然:信息论

王天一 2017-12-19
近年来的科学研究不断证实,不确定性才是客观世界的本质属性。换句话说,上帝还真就掷骰子。不确定性的世界只能使用概率模型来描述,正是对概率的刻画促成了信息论的诞生。
1948 年,供职于美国贝尔实验室的物理学家克劳德·香农发表了著名论文《通信的数学理论》(A Mathematical Theory of Communication),给出了对信息这一定性概念的定量分析方法,标志着信息论作为一门学科的正式诞生。
香农在《通信的数学理论》中开宗明义:“通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。消息通常有意义,即根据某种体系,消息本身指向或关联着物理上或概念上的特定实体。但消息的语义含义与工程问题无关,重要的问题是一条消息来自于一个所有可能的消息的集合。”
这样一来,所有类型的信息都被抽象为逻辑符号,这拓展了通信任务的范畴与信息论的适用性,也将信息的传播和处理完全剥离。
信息论使用“信息熵”的概念,对单个信源的信息量和通信中传递信息的数量与效率等问题做出了解释,并在世界的不确定性和信息的可测量性之间搭建起一座桥梁
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《人工智能基础课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(19)

  • 囊子
    可以参考数学之美第二版,第六章 - 信息的度量和作用
    2019-01-21
    1
    4
  • 井中月
    王老师,感谢您的回复。但是我还有点疑惑,X表示的是训练集的某个特征,Y相当于是训练集中需要被分类的变量,那么这样的话H(Y)就是一个定值,用它做分母和直接使用信息增益进行特征选择不就是一样的吗?

    作者回复: 感谢你指出,这里的符号写的不够清晰,H(Y)其实应该写成H_X(Y)。H(Y)是直接用数据的分类结果计算出来的信息熵,H_X(Y)的下标X表示的是以特征X的取值为变量对数据集计算出的信息熵。所以当关注的特征X不同时,H_X(Y)也是不一样的。
    信息增益比主要用在决策树当中,作用是消除多个取值的特征导致的偏差,因为多值特征的信息增益很大,但泛化性能却很差。比如,使用姓名作为特征可以得到较大的信息增益,因为它基本可以把每个人区分开来,但这种区分对于分类显然没什么帮助。这时就可以用信息增益比来一定程度上消除对多值属性的偏向性,但也不能完全消除。

    2018-03-03
    4
  • 刘祯
    看完之后,我努力应用如下:

    消息是今天我学会了专栏的信息论部分,因为可能性较低,因而信息量较大,信息熵也就越大。

    机器学习中的分类问题,可能还是缺乏较好的类比方法,初入门道就有些迷糊了。

    看了些其他资料,这句话写得很妙,“学习就是一个熵减的过程”,学习的过程也就是使信息的不确定度下降的过程,这似乎就是机器学习的方向,然后再把《信息论、推理与学习算法》下载了,继续学习中。
    2018-01-04
    3
  • Mr.Button
    为什么log以2为底的函数这么常见...这里为什么取2

    作者回复: 以2为底计算出的单位就是二进制的比特。

    2018-08-13
    2
  • 夜星辰
    有一点理解上的困惑希望王老师帮忙解答下

    1. 熵表示的是信息量大小,从公式中知道随着概率增大,熵会变小。而机器学习中常用交叉熵作为目标函数,学习的过程是不断求取最小熵,也就是求取概率最大的参数,等价于极大似然估计法进行参数估计。
    2. 但是我无法上述理解1和最大熵原理联系起来,请老师佐证下问题

    作者回复: 最大熵表示的是对未知的部分不做任何多余的假设,所以要选择符合已有知识但不确定性最大,也就是熵最大的分布,通俗说就是不要不懂装懂。对交叉熵的最小化意味着数据训练的模型要尽可能地接近真实模型,而真实模型又是建立在最大熵的前提下的。所以在优化时,要不断地调整训练的模型,以期更接近真实情况。

    2018-03-05
    2
  • 秦龙君
    学习了。这篇很难,后半部分暂时还看不懂。
    2017-12-29
    2
  • 水木竹水
    首先感谢老师讲的非常好。有个疑惑问下老师,信息增益是H(Y)-H(Y|X),后者是已知X情况下Y的不确定性,信息增益就是X对Y的确定性消除。H(Y|X)越小,说明X对Y的分类效果越好,为何决策树不直接用H(Y|X)选取主要特征,而用信息增益,H(Y)是变化的吗?

    作者回复: 数据集确定了,总体的信息熵H(Y)就是常量,所以两个其实是等效的。之所以选信息增益一方面在于它和信息论一脉相承,意义清晰;另一方面,在取值上信息增益是越大越好,如果选一个越小越好的指标,有些反直觉。

    2018-07-06
    1
  • 星运里的错
    信息增益表示的就是特征 X带来的对训练集 Y 分类不确定性的减少程度,也就是特征 X 对训练集 YY的区分度。
    这句话意思是 总体熵-某个特征下的熵 =去除某个特征影响的熵 老师。这个公式对么?
    我的理解是 熵对应着信息量的多少。熵大,意味着信息量大,信息混杂,也就是不确定性大。
    当用到决策树中时,要保证分支所考虑的不确定性最小,也就是可用信息量纯净(少),所以我们要用使 某个特征影响的熵 最小的那个特征进行分支,也就是信息增益越大。
    我感觉。。。我理解的好乱。求老师解惑下

    作者回复: 总体熵 - 特征分类之后每个类别的熵的总和 = 特征的信息增益
    这里的信息增益表示的是分类之后残留的不确定度。如何一个特征能够将两个类别完全正确地分开,那它的信息增益是最大的,就等于数据集的熵。

    2018-05-19
    1
  • chucklau
    嗯,这篇的内容很难理解,希望有其它更多的相关资料,谢谢老师。

    作者回复: 可以参考MacKay的《信息论,推理与学习算法》

    2017-12-30
    1
  • 吴凌华
    局部信息增益
    2019-10-30
  • 吴凌华
    概率只能在条件确定性的环境使用啊
    2019-10-30
  • Naraka,
    老师,不知道现在提问还会不会回答,
    “从这个角度看,最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设,因而可以得到最不确定的结果,预测的风险也就最小。”
    这一段没有看懂,为什么得到最不确定的结果,预测风险会最小?最不确定的,可能性很多,预测的结果不也更吗?

    作者回复: 最大熵考虑的是最随机的情况,不做任何多余假设,所以可以认为它最符合实际。虽然得到的结果有最大的不确定性,但这种不确定性和真实情况是匹配的,真实世界就是这么不确定,我们不能人为地去增加信息。就像拿到一个骰子,我们会默认每个面出现的概率都是1/6,这就是最大熵思想。

    2019-03-25
  • Snail@AI_ML
    非常棒,深入浅出,对照了培训课程之后,有一个更清晰的思路,虽然理解程度可能不够深,但觉得目前够用了,安利一波😄
    2019-01-10
  • Shawn
    这一张看完特别熟悉,翻了好几本书找到了数学之美
    2018-12-29
  • 梦帝
    老师你好,虽然留言里面提到了,但有一个问题还是不太明白,关于最大熵模型和交叉熵的。在网上看max最大熵模型的解时发现,其实max最大熵模型,就是max模型的最大似然估计,也就是说如果以logistic regression为例的化,max最大熵模型和max logistic regression的最大似然估计是一样的,而max logistic regression的最大似然估计其实就是minimize对应的cross entropy,所以其实最大熵模型和最小化cross entropy是不是其实是一回事?还是我理解的有些不对?谢谢老师啦!
    2018-12-25
  • 井中月
    王老师,您好,我有个疑问,信息增益比里面的分母是不是应该是H(X)?

    作者回复: 分母是训练数据集的信息熵,因为这里把训练集定为Y,所以分母就是H(Y)。

    2018-03-01
  • 卡斯瓦德
    看完这篇,突然觉得所谓的奇迹,其实就是信息熵不对等的结果,从某个面如何环境,物质看概率为百万分之一,从另一个面如自主意念等,概率可能就是十分之一,那么事件成就的结果其实就是KL后,不同的结果,饿可能总结有点问题,但是有那么个方向的感觉

    作者回复: 奇迹其实就是小概率事件的发生

    2018-02-01
  • wolfog
    这个推荐大家可以看看吴军老师的数学之美其中就有关于最大熵和互信息等的介绍,讲的更加详细和通俗一些
    2018-01-16
  • wolfog
    之前看过吴军老师的《数学之美》,这一张还听得有点眉目,加油。
    2018-01-16
收起评论
19
返回
顶部