• Peng
    2019-03-05
    开始看不懂了,我再多看几遍试试。

    作者回复: 可以逐个理解,每次理解一点都是进步👍

    
     3
  • Paul Shan
    2019-09-10
    信息增益,新分类的引入导致熵的减少。
    信息增益率,计算熵的时候还考虑了多个子项的数目。在计算分组后集合的熵,采用加权平均之后,还要除以,集合分组不同数目引入的熵。
    Gini指数是一种新的计算混乱度的方法,熵是基于对数加权的,Gini指数是基于平方的相反数求和再加一。Gini指数求导以后是线性的,随着概率减少变化度比熵更敏感(熵的导数是对数),也就更惩罚小概率事件。

    
     1
  • 总统老唐
    2019-12-25
    既然每次都是分解成左右两个子树,为什么CART算法公式中的m不直接写成2

    作者回复: 这里主要是通用性,对于CART算法确实可以将m简写为2,对于其他使用基尼指数的算法仍然保持m

    
    
  • 💢 星星💢
    2019-11-11
    老师随机森林有没有好的文章推荐,另外老师有没有公众号,或者其他方式可以白嫖看您的文章呢,当然也期待老师出新的专栏,虽然这个专栏对于我来说已经是新的挑战。但是非常喜欢读老师的文章。

    作者回复: 你好,感谢支持,我暂时还没有时间在其他地方发表博文。如果有好的想法写作,当然首选极客时间专栏啦😆。正在和编辑筹划下一个专栏,期待与大家再次交流

    
    
  • 张九州
    2019-09-08
    计算整个数据集基尼指数,pj是什么 如何计算?

    作者回复: pj表示第j组元素出现的概率,这里用在某个划分的组之中,第j组元素的数量除以这个划分的元素数量来计算

    
    
  • lifes a Struggle
    2019-08-07
    知道了,老师的案例中个体都是一个单独的分类,所有在原始集合中可以采用-n*(Pi*log(2,Pi))的形式进行信息熵的计算。如果存在分类的数据不均匀,通过各个分类的信息熵求和即可。

    作者回复: 是的👍

    
    
  • lifes a Struggle
    2019-08-07
    老师,请问一下,当原始集合中的数据,本身是分布不均匀的,这个时候该如何计算它的信息熵呢?如:集合{A,A,A,B,B,C}
    
    
  • abson
    2019-08-07
    老师,有个疑问,像前几篇文章讲隐马尔科夫、信息熵和本节讲的决策树,数据是怎么来的,用什么方法去统计才能拿到相对偏差较少的数据

    作者回复: 你是指在实际项目中如何获得数据吗?这个要看具体的应用场景和需求,通常的规则是尽量覆盖不同的情况。比如不同时间段、不同用户分组、不同地域等等

    
    
  • 动摇的小指南针
    2019-05-17
    基尼系数中,基于特征T划分出来的子集m中,m的每个子集又有n个不同的分组。请问这个n是根据什么来进行划分的呢

    作者回复: 由于是标注数据,所以这个n是根据原有分类的标签来看的

    
    
  • Bora.Don
    2019-03-18
    老师,你好,既然CART算法是二叉树,那么在计算基尼指数的时候,n和m是不是就是定值:2?
    CART算法又是如何保证是二叉树的呢?CART算法没看懂

    作者回复: 这里n和m表示分别表示使用特征划分后形成的分组,以及分类标签形成的分组,这和决策树的分叉是不同的

    
    
  • 冰冷的梦
    2019-03-12
    老师,什么是过拟合啊?

    作者回复: 我在第32篇有详细讲解,你可以参考

    
    
  • qinggeouye
    2019-03-10
    某个特征 T 取值越多,数据集 P 划分时分组越多,划分后的「信息熵」越小,「信息增益」越大。「分裂信息」是为了解决某个特征 T 取值过多,造成机器学习过拟合,而引入的一种惩罚项,惩罚取值多的特征。

    老师,「基尼指数」没怎么看明白,第一个式子中「n 为集合 P 中所包含的不同分组或分类的数量」该怎么理解?求和符号后面的 pi 是什么含义?谢谢~

    作者回复: 因为决策树是一种分类算法,我们有训练样本告诉我们每个数据样本属于何种分类,所以这里的分类、分组都是根据训练样本中的分类标签。

    
    
  • Joe
    2019-02-21
    老师,请问有没有相关代码实现的方式,能否给出参考链接。

    作者回复: 你是指计算信息熵、信息增益和基尼指数?可以使用现成的机器学习包计算,如果希望自己计算也不难,遵循专栏中的公式就可以了。后面我有时间整理一下代码。

    
    
  • Thinking
    2019-02-15
    建议老师每堂课后能配多几个具有代表性的,针对性的练习题辅助理解概念和公式。

    作者回复: 好的,后面我会考虑多从公式的角度出发

    
    
我们在线,来聊聊吧