程序员的数学基础课
黄申
LinkedIn 资深数据科学家
83374 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 58 讲
导读 (1讲)
基础思想篇 (18讲)
程序员的数学基础课
15
15
1.0x
00:00/00:00
登录|注册

26 | 信息熵:如何通过几个问题,测出你对应的武侠人物?

分隔后,每个细分的集合熵越趋近于0
能将来自不同分组的元素分隔开
Gain(P,T)=Entropy(P)v=1VPvPEntropy(Pv)Gain(P,T) = Entropy(P) - \sum_{v=1}^{V} \frac{|P_{v}|}{|P|} * Entropy(P_{v})
多个小集合的整体熵计算
单个集合的熵计算
熵的计算公式:Entropy(P)=i=1npilog(pi,2)Entropy(P)=-\sum_{i=1}^{n} p_{i} * log(p_{i}, 2)
信息量公式:H(x)=log(P(x),2)H(x)=-log(P(x), 2)
区分力强的测试题
利用信息增益找出区分力最强的测试题
信息增益的计算公式
划分后整体熵的下降
集合的熵计算
信息量和熵的计算公式
用来刻画给定集合的纯净度的指标
问卷调查
信息增益
信息熵
应用
信息熵和信息增益

该思维导图由 AI 生成,仅供参考

你好,我是黄申。
之前和你聊了概率在朴素贝叶斯分类算法中的应用。其实,概率在很多像信息论这样的应用数学领域都有广泛的应用。信息论最初就是运用概率和统计的方法,来研究信息传递的。最近几十年,人们逐步开始使用信息论的概念和思想,来描述机器学习领域中的概率分布,并衡量概率分布之间的相似性。随之而来的是,人们发明了不少相关的机器学习算法。所以接下来的几节,我来介绍一些基于信息论知识的内容。
信息论的概念比较枯燥,为了让你更轻松地学习,让我从一个生动的案例开始。最近我在朋友圈看到一个小游戏,叫“测一测你是金庸笔下的哪个人物?”。玩这个游戏的步骤是,先做几道题,然后根据你的答案,生成对应的结果。下面是我几位朋友答题之后得到的结果。
这种测试挺好玩的,而且好像有很多类似的,比如测星座啊、测运势啊等等。那你知道这种心理或者性格测试的题目是怎么设计的吗?
通常,这种心理测试会有一个题库,包含了许多小题目,也就是从不同的方面,来测试人的性格。不过,针对特定的测试目标,我们可能没必要让被测者回答所有的问题。那么,问卷设计者应该如何选择合适的题目,才能在读者回答尽量少的问题的同时,相对准确地测出自己是什么“性格”呢?这里,我们就需要引入基于概率分布的信息熵的概念,来解决这个问题。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了信息熵在心理测试中的应用,以及信息论的概念和思想在机器学习领域的广泛应用。作者通过一个有趣的小游戏示例,展示了如何利用信息熵设计心理测试题目,以尽量少的问题准确测出被测试者的性格。文章重点介绍了信息熵的概念和应用,以及基于概率分布的信息熵的概念。通过对信息熵的解释和计算公式的详细阐述,读者可以了解信息熵在题目选择中的重要性,以及如何利用信息熵来衡量心理测试题目的区分能力。整体而言,本文深入浅出地介绍了信息熵的概念和应用,对于对信息论和心理测试感兴趣的读者具有很高的参考价值。文章通过具体的例子和公式阐述了信息增益的概念,以及如何利用信息增益来安排测试问题的先后顺序,找出区分力最强的测试题。通过对信息增益的解释和示例分析,读者可以深入理解信息增益的重要性,以及如何利用它来提高问卷调查的效率。整体而言,本文通过生动的例子和清晰的逻辑,深入浅出地介绍了信息熵和信息增益的概念及应用,对于对机器学习和问卷调查感兴趣的读者具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《程序员的数学基础课》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(37)

  • 最新
  • 精选
  • 蒋宏伟
    信息熵是衡量信息简单、纯净或复杂、混乱的标尺。人类必须将事务抽象为信息才能进行理解。事物的信息熵越小越容易理解,越大越难理解。 写好代码的本质,就是降低程序信息熵 。作用域、模块、组件、微服务、文档、注释是在不同的纬度,降低信息熵的工具。

    作者回复: 这是个很新颖的角度来理解信息熵

    2019-02-20
    5
    27
  • qinggeouye
    1、事件发生的概率 P(x) 越小,包含的信息量 H(x) 越大; 2、两个不相关的事件 x 、y,同时发生的信息量 H(x,y) 等于这两个事件分别发生时的信息量 H(x) 、H(y) 之和; 3、信息熵 Entropy(x) 是信息量 H(x) 的加权平均,即信息量的期望; 4、信息增益等于集合元素划分前的信息熵减去划分后的信息熵;划分后的信息熵等于各个分组的信息熵的加权平均; 思考题:64*(-1)*(1/64)*log(1/64) = 6 , (对数底数取 2)。

    作者回复: 理解正确

    2019-03-06
    3
    23
  • 刘杰
    这个是我读过最好的信息论概念的解释!

    作者回复: 感谢支持,后面我会继续努力深入浅出

    2019-02-20
    13
  • 事情发生的概率越大,产生的信息量越小;事情发生的概率越小,产生的信息量越大。 这个应该怎么理解呢

    作者回复: 举个形象的例子,比如说最近本地区天天下雨,如果明天仍然有很高的概率会下雨,我告诉你“明天下雨”,你就觉得这个信息量不大,因为即使我不说,你也知道明天会下雨,也会带雨伞出门。如果本地区几十年以来从未下过雪,我告诉你“明天要下雪”,那么这个对你来说,这是个极低概率的事件,你没有想到它会发生,这句话包含了很大的信息量,它可能会改变你明天出门的行为,比如买一双防滑靴以备出门之用。

    2019-08-17
    2
    12
  • 拉欧
    2的6次方是64,所以是6

    作者回复: 正确

    2019-02-13
    7
  • jay
    黄老师,您好!您讲的真的好,虽然之前接触过这些概念,但理解的不透彻,从之前的贝叶斯到今天的信息熵,我现在完全搞明白了,相见恨晚啊。(希望您能开个ML和DL的专栏,将来想从事这方面的研究,谢谢)

    作者回复: 感谢支持,如果有好的机会会考虑🙂

    2020-01-06
    4
  • 张九州
    总信息量减少 为什么叫做增益呢?不太理解

    作者回复: 虽然信息量减少了,但是对分类这个应用而言,增加了分组内的纯净度,算是“增益”(英文Gain,也可以理解为获益)了

    2019-09-07
    4
  • 建强
    思考题: 包含64个元素的集合信息熵 Entroy(P) = 64 * (-1 * 1/64 * log(2, 1/64)) = 2^6 * (-1) * (2^(-6)) * (-6) = 6 = log(2,64) 我个人理解:信息熵其实就是用二进制来表达某个数时所需要的二进制位数

    作者回复: 是的

    2020-06-14
    3
    3
  • Dale
    6位二进制数刚好可以表示0~63共64个不同的状态,也就是说在概率相同的情况下,熵就等于存储所有状态的比特数(没有取整)

    作者回复: 是的

    2021-02-04
    2
  • zhengfan
    黄老师: 请问对一个几个不断地做划分,信息熵是否是个单调递减过程? 我试着推导了一下可以得出,对于一个完全无分类集合,所有有效划分(不会导致空子集产生的划分)都必然带来大于0的信息增益,也就是信息熵必然减小。 对于已经存在分类的集合,我直觉上认为是成立的,思考了几个例子也支持。请问能严格证明吗?

    作者回复: 对,如果每次划分都有新的切分,就会如此,这样也是为什么过多的决策树分支会导致过拟合。所以人们提出了适度的剪枝,具体你可以参考后面一节

    2020-05-02
    2
收起评论
显示
设置
留言
37
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部