极客时间-轻松学习，高效学习-极客邦

Peng

2019-03-05

开始看不懂了，我再多看几遍试试。

作者回复: 可以逐个理解，每次理解一点都是进步👍



 3
Paul Shan

2019-09-10

信息增益，新分类的引入导致熵的减少。
信息增益率，计算熵的时候还考虑了多个子项的数目。在计算分组后集合的熵，采用加权平均之后，还要除以，集合分组不同数目引入的熵。
Gini指数是一种新的计算混乱度的方法，熵是基于对数加权的，Gini指数是基于平方的相反数求和再加一。Gini指数求导以后是线性的，随着概率减少变化度比熵更敏感（熵的导数是对数），也就更惩罚小概率事件。



 1
总统老唐

2019-12-25

既然每次都是分解成左右两个子树，为什么CART算法公式中的m不直接写成2

作者回复: 这里主要是通用性，对于CART算法确实可以将m简写为2，对于其他使用基尼指数的算法仍然保持m




💢 星星💢

2019-11-11

老师随机森林有没有好的文章推荐，另外老师有没有公众号，或者其他方式可以白嫖看您的文章呢，当然也期待老师出新的专栏，虽然这个专栏对于我来说已经是新的挑战。但是非常喜欢读老师的文章。

作者回复: 你好，感谢支持，我暂时还没有时间在其他地方发表博文。如果有好的想法写作，当然首选极客时间专栏啦😆。正在和编辑筹划下一个专栏，期待与大家再次交流




张九州

2019-09-08

计算整个数据集基尼指数，pj是什么如何计算？

作者回复: pj表示第j组元素出现的概率，这里用在某个划分的组之中，第j组元素的数量除以这个划分的元素数量来计算




lifes a Struggle

2019-08-07

知道了，老师的案例中个体都是一个单独的分类，所有在原始集合中可以采用-n*(Pi*log(2,Pi))的形式进行信息熵的计算。如果存在分类的数据不均匀，通过各个分类的信息熵求和即可。

作者回复: 是的👍




lifes a Struggle

2019-08-07

老师，请问一下，当原始集合中的数据，本身是分布不均匀的，这个时候该如何计算它的信息熵呢？如：集合｛A,A,A,B,B,C｝




abson

2019-08-07

老师，有个疑问，像前几篇文章讲隐马尔科夫、信息熵和本节讲的决策树，数据是怎么来的，用什么方法去统计才能拿到相对偏差较少的数据

作者回复: 你是指在实际项目中如何获得数据吗？这个要看具体的应用场景和需求，通常的规则是尽量覆盖不同的情况。比如不同时间段、不同用户分组、不同地域等等




动摇的小指南针

2019-05-17

基尼系数中，基于特征T划分出来的子集m中，m的每个子集又有n个不同的分组。请问这个n是根据什么来进行划分的呢

作者回复: 由于是标注数据，所以这个n是根据原有分类的标签来看的




Bora.Don

2019-03-18

老师，你好，既然CART算法是二叉树，那么在计算基尼指数的时候，n和m是不是就是定值：2？
CART算法又是如何保证是二叉树的呢？CART算法没看懂

作者回复: 这里n和m表示分别表示使用特征划分后形成的分组，以及分类标签形成的分组，这和决策树的分叉是不同的




冰冷的梦

2019-03-12

老师，什么是过拟合啊？

作者回复: 我在第32篇有详细讲解，你可以参考




qinggeouye

2019-03-10

某个特征 T 取值越多，数据集 P 划分时分组越多，划分后的「信息熵」越小，「信息增益」越大。「分裂信息」是为了解决某个特征 T 取值过多，造成机器学习过拟合，而引入的一种惩罚项，惩罚取值多的特征。

老师，「基尼指数」没怎么看明白，第一个式子中「n 为集合 P 中所包含的不同分组或分类的数量」该怎么理解？求和符号后面的 pi 是什么含义？谢谢～

作者回复: 因为决策树是一种分类算法，我们有训练样本告诉我们每个数据样本属于何种分类，所以这里的分类、分组都是根据训练样本中的分类标签。




Joe

2019-02-21

老师，请问有没有相关代码实现的方式，能否给出参考链接。

作者回复: 你是指计算信息熵、信息增益和基尼指数？可以使用现成的机器学习包计算，如果希望自己计算也不难，遵循专栏中的公式就可以了。后面我有时间整理一下代码。




Thinking

2019-02-15

建议老师每堂课后能配多几个具有代表性的，针对性的练习题辅助理解概念和公式。

作者回复: 好的，后面我会考虑多从公式的角度出发



