26 | 信息熵：如何通过几个问题，测出你对应的武侠人物？

黄申



该思维导图由 AI 生成，仅供参考

你好，我是黄申。
之前和你聊了概率在朴素贝叶斯分类算法中的应用。其实，概率在很多像信息论这样的应用数学领域都有广泛的应用。信息论最初就是运用概率和统计的方法，来研究信息传递的。最近几十年，人们逐步开始使用信息论的概念和思想，来描述机器学习领域中的概率分布，并衡量概率分布之间的相似性。随之而来的是，人们发明了不少相关的机器学习算法。所以接下来的几节，我来介绍一些基于信息论知识的内容。
信息论的概念比较枯燥，为了让你更轻松地学习，让我从一个生动的案例开始。最近我在朋友圈看到一个小游戏，叫“测一测你是金庸笔下的哪个人物？”。玩这个游戏的步骤是，先做几道题，然后根据你的答案，生成对应的结果。下面是我几位朋友答题之后得到的结果。
这种测试挺好玩的，而且好像有很多类似的，比如测星座啊、测运势啊等等。那你知道这种心理或者性格测试的题目是怎么设计的吗？
通常，这种心理测试会有一个题库，包含了许多小题目，也就是从不同的方面，来测试人的性格。不过，针对特定的测试目标，我们可能没必要让被测者回答所有的问题。那么，问卷设计者应该如何选择合适的题目，才能在读者回答尽量少的问题的同时，相对准确地测出自己是什么“性格”呢？这里，我们就需要引入基于概率分布的信息熵的概念，来解决这个问题。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了信息熵在心理测试中的应用，以及信息论的概念和思想在机器学习领域的广泛应用。作者通过一个有趣的小游戏示例，展示了如何利用信息熵设计心理测试题目，以尽量少的问题准确测出被测试者的性格。文章重点介绍了信息熵的概念和应用，以及基于概率分布的信息熵的概念。通过对信息熵的解释和计算公式的详细阐述，读者可以了解信息熵在题目选择中的重要性，以及如何利用信息熵来衡量心理测试题目的区分能力。整体而言，本文深入浅出地介绍了信息熵的概念和应用，对于对信息论和心理测试感兴趣的读者具有很高的参考价值。文章通过具体的例子和公式阐述了信息增益的概念，以及如何利用信息增益来安排测试问题的先后顺序，找出区分力最强的测试题。通过对信息增益的解释和示例分析，读者可以深入理解信息增益的重要性，以及如何利用它来提高问卷调查的效率。整体而言，本文通过生动的例子和清晰的逻辑，深入浅出地介绍了信息熵和信息增益的概念及应用，对于对机器学习和问卷调查感兴趣的读者具有很高的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《程序员的数学基础课》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(37)

最新
精选

蒋宏伟
信息熵是衡量信息简单、纯净或复杂、混乱的标尺。人类必须将事务抽象为信息才能进行理解。事物的信息熵越小越容易理解，越大越难理解。写好代码的本质，就是降低程序信息熵。作用域、模块、组件、微服务、文档、注释是在不同的纬度，降低信息熵的工具。
作者回复: 这是个很新颖的角度来理解信息熵
2019-02-20
5
27
qinggeouye
1、事件发生的概率 P(x) 越小，包含的信息量 H(x) 越大； 2、两个不相关的事件 x 、y，同时发生的信息量 H(x,y) 等于这两个事件分别发生时的信息量 H(x) 、H(y) 之和； 3、信息熵 Entropy(x) 是信息量 H(x) 的加权平均，即信息量的期望； 4、信息增益等于集合元素划分前的信息熵减去划分后的信息熵；划分后的信息熵等于各个分组的信息熵的加权平均；思考题：64*(-1)*(1/64)*log(1/64) = 6 , (对数底数取 2)。
作者回复: 理解正确
2019-03-06
3
23
刘杰
这个是我读过最好的信息论概念的解释！
作者回复: 感谢支持，后面我会继续努力深入浅出
2019-02-20

13
哈
事情发生的概率越大，产生的信息量越小；事情发生的概率越小，产生的信息量越大。这个应该怎么理解呢
作者回复: 举个形象的例子，比如说最近本地区天天下雨，如果明天仍然有很高的概率会下雨，我告诉你“明天下雨”，你就觉得这个信息量不大，因为即使我不说，你也知道明天会下雨，也会带雨伞出门。如果本地区几十年以来从未下过雪，我告诉你“明天要下雪”，那么这个对你来说，这是个极低概率的事件，你没有想到它会发生，这句话包含了很大的信息量，它可能会改变你明天出门的行为，比如买一双防滑靴以备出门之用。
2019-08-17
2
12
拉欧
2的6次方是64，所以是6
作者回复: 正确
2019-02-13

7
jay
黄老师，您好！您讲的真的好，虽然之前接触过这些概念，但理解的不透彻，从之前的贝叶斯到今天的信息熵，我现在完全搞明白了，相见恨晚啊。（希望您能开个ML和DL的专栏，将来想从事这方面的研究，谢谢）
作者回复: 感谢支持，如果有好的机会会考虑🙂
2020-01-06

4
张九州
总信息量减少为什么叫做增益呢？不太理解
作者回复: 虽然信息量减少了，但是对分类这个应用而言，增加了分组内的纯净度，算是“增益”（英文Gain，也可以理解为获益）了
2019-09-07

4
建强
思考题：包含64个元素的集合信息熵 Entroy(P) = 64 * (-1 * 1/64 * log(2, 1/64)) = 2^6 * (-1) * (2^(-6)) * (-6) = 6 = log(2,64) 我个人理解：信息熵其实就是用二进制来表达某个数时所需要的二进制位数
作者回复: 是的
2020-06-14
3
3
Dale
6位二进制数刚好可以表示0~63共64个不同的状态，也就是说在概率相同的情况下，熵就等于存储所有状态的比特数(没有取整)
作者回复: 是的
2021-02-04

2
zhengfan
黄老师：请问对一个几个不断地做划分，信息熵是否是个单调递减过程？我试着推导了一下可以得出，对于一个完全无分类集合，所有有效划分（不会导致空子集产生的划分）都必然带来大于0的信息增益，也就是信息熵必然减小。对于已经存在分类的集合，我直觉上认为是成立的，思考了几个例子也支持。请问能严格证明吗？
作者回复: 对，如果每次划分都有新的切分，就会如此，这样也是为什么过多的决策树分支会导致过拟合。所以人们提出了适度的剪枝，具体你可以参考后面一节
2020-05-02

2

收起评论