• qinggeouye
    2019-03-06
    1、事件发生的概率 P(x) 越小,包含的信息量 H(x) 越大;
    2、两个不相关的事件 x 、y,同时发生的信息量 H(x,y) 等于这两个事件分别发生时的信息量 H(x) 、H(y) 之和;
    3、信息熵 Entropy(x) 是信息量 H(x) 的加权平均,即信息量的期望;
    4、信息增益等于集合元素划分前的信息熵减去划分后的信息熵;划分后的信息熵等于各个分组的信息熵的加权平均;

    思考题:64*(-1)*(1/64)*log(1/64) = 6 , (对数底数取 2)。
    展开

    作者回复: 理解正确

    
     15
  • 蒋宏伟
    2019-02-20
    信息熵是衡量信息简单、纯净或复杂、混乱的标尺。人类必须将事务抽象为信息才能进行理解。事物的信息熵越小越容易理解,越大越难理解。
    写好代码的本质,就是降低程序信息熵
    。作用域、模块、组件、微服务、文档、注释是在不同的纬度,降低信息熵的工具。

    作者回复: 这是个很新颖的角度来理解信息熵

     1
     7
  • 刘杰
    2019-02-20
    这个是我读过最好的信息论概念的解释!

    作者回复: 感谢支持,后面我会继续努力深入浅出

    
     5
  • 拉欧
    2019-02-13
    2的6次方是64,所以是6

    作者回复: 正确

    
     4
  • 大秦岭
    2019-06-19
    经过各学者多年的探究和各种语言的统计,得出一个结果,汉语是世界上信息熵最大的语言。那么这个信息熵是 什么?信息熵指的就是可能发生的所有事情中包含的信息期望值,比如鸟不能生活在水中,违背自然常理,那么信息熵为0.

    作者回复: 这可能也是为什么汉语这么难学的原因吧😆

    
     1
  • Eleven
    2020-01-21
    按照公式计算为:
    -1*64*1/64*log(1/64) = -1*1*(log1 - log64) = -1(0 - 6) = 6

    作者回复: 是不是少写了log?

    
    
  • F大圣
    2020-01-06
    黄老师,您好!您讲的真的好,虽然之前接触过这些概念,但理解的不透彻,从之前的贝叶斯到今天的信息熵,我现在完全搞明白了,相见恨晚啊。(希望您能开个ML和DL的专栏,将来想从事这方面的研究,谢谢)

    作者回复: 感谢支持,如果有好的机会会考虑🙂

    
    
  • so敏仪
    2019-11-16
    设某集合含n个互不相同的元素,则Entropy(P)=-n * 1/n * log(1/n,2)=log(n,2)
    
    
  • Ronnyz
    2019-10-11
    64*-1*(1/64)*log(1/64,2)=6
    由于是64等分,相当于2^6=64

    作者回复: 是的

    
    
  • Paul Shan
    2019-09-09
    熵是事件概率负对数的加权和。如果把负对数看作搜索一个元素的难度,也就是二分查找树对应叶子节点的高度,熵就是这些叶子节点高度的加权和。

    熵可以看作负信息,熵的减少就是信息的增加。信息增益就是熵减少的一种。

    信息增益就是对集合进行划分,计算划分后子集的熵,然后再对子集的熵做加权平均,这个时候的熵会小于原来集合,减少的熵就是对应的信息增益。
    
    
  • Paul Shan
    2019-09-09
    思考题
    64个等概率出现的事件集合的熵是6,如果把0到63,这六十四个数看作6位二进制能表示的状态个数,熵就是最大数为64-1的二进制位数。
    
    
  • Paul Shan
    2019-09-09
    老师,我推导了一下独立事件熵的公式和文中不一样,不知道哪一步有问题?多谢!
    H(x,y) = -P(x,y)lgP(x,y) = -P(x)P(y)lg(P(x)P(y)) =H(x)P(y) + H(y)P(x)

    作者回复: 这篇讲座暂时还没有设计独立事件的熵计算

    
    
  • 张九州
    2019-09-07
    总信息量减少 为什么叫做增益呢?不太理解

    作者回复: 虽然信息量减少了,但是对分类这个应用而言,增加了分组内的纯净度,算是“增益”(英文Gain,也可以理解为获益)了

    
    
  • 哈
    2019-08-17
    事情发生的概率越大,产生的信息量越小;事情发生的概率越小,产生的信息量越大。
    这个应该怎么理解呢

    作者回复: 举个形象的例子,比如说最近本地区天天下雨,如果明天仍然有很高的概率会下雨,我告诉你“明天下雨”,你就觉得这个信息量不大,因为即使我不说,你也知道明天会下雨,也会带雨伞出门。如果本地区几十年以来从未下过雪,我告诉你“明天要下雪”,那么这个对你来说,这是个极低概率的事件,你没有想到它会发生,这句话包含了很大的信息量,它可能会改变你明天出门的行为,比如买一双防滑靴以备出门之用。

     1
    
  • 予悠悠
    2019-05-25
    -1 * 64 * (1/64) * log(64, 2) = 6
     1
    
  • zhengnachuan
    2019-03-23
    如果只是为了增加增益,其实可以细分到最小,但是实际上应该是要考虑其他维度的吧,例如分组的次数,即在固定次数下的最大增益。
    另外,有点疑惑,假设为了获得最大增益,n个元素分为n组,是不是表示就需要有n个条件能一次进行区分。以开始的人物区分为例,这个条件应该怎么给呢,是不是要重新设计独有的特征。

    作者回复: 如果决策树是用于分类的,没有必要细分到每一个样本,我们只需要确保划分后,每一组里所有的样本都属于同一个分类,那么就很完美了。如果细分到每个样本,就是过拟合了。

    
    
  • mickey
    2019-02-21
    信息熵的公式是H(x)=−log(P(x),2)
    文中熵为 -100%*log(100%, 2) = 0
    请问第一个 100% 怎么来的?少了一个 P(x)吧。

    作者回复: H(x)=−log(P(x),2),这里是指单个变量取值时候获得的信息量

    
    
  • acheng
    2019-02-21
    信息熵的另一个别名:信息的不确定性。
    
    
  • 蒋宏伟
    2019-02-20
    信息熵是衡量信息简单或复杂的标尺。你要想理解什么东西,必须先将其抽象为信息。事物的信息熵越小你越容易理解,越大越难理解。
    写好代码的本质,就是降低程序的信息熵。作用域、模块、组件、微服务、注释、文档是在不同纬度降低信息熵的工具。
     1
    
我们在线,来聊聊吧