• 那时刻
    2019-02-20
    老师,你好。关于使用卡方检验来进行特征选择,能否在答疑课的时候,给个具体例子讲解下?

    作者回复: 你好,你说的具体例子,是指通过实际的数据或代码来分析一下?

    
     3
  • watson
    2019-07-11
    一说自己会概率,上帝就发笑 ...
    
     1
  • 13311195819
    2019-02-20
    老师您用的什么画图软件,看起来画图很漂亮;我在网上找了好久找不到

    作者回复: 你是指这一节专栏吗?好像这期没有画什么图啊😆

    
     1
  • 总统老唐
    2019-12-27
    黄老师,关于使用卡方检验做特征选择,按照文中的讲法,实际上是检测的某个特征 fi 和 某个类 cj 的相关性,但是我们面对的实际情况是有 m 个特征,n 个类,那么:
    1,是不是代表要做 m×n 次计算?
    2,即便计算结果表明 fi 和 cj 类相关性很高,也有可能 fi 和 ck类 相关性很低,那这个结果对是否选取 fi 作为整体n个类的特征有什么指导意义呢?

    作者回复: 1. 是的,要做mxn次比较
    2. 我的理解特征选择,可以按照整体也可以按照分类。如果是整体,可以定义简单的按权加和

    
    
  • Paul Shan
    2019-09-12
    本文先引入了条件熵,条件熵只反映了特征和全局数据的相关性,并没有考虑不在条件分类下的情况。例如癌症筛查,只给没有癌症标签的分类器,全局准确度很高,因为患癌毕竟是小概率事件。为了解决这个问题,引入了条件分类下的信息增益。这种情况下,只给没有癌症的分类器就现形了,信息增益为零。
    和条件分类下的信息增益类似,卡方检验用联合概率来简化计算,目的还是计算相关性。我感觉卡方检验和相关系数非常类似,请问老师为什么不直接用相关系数检验相关性,卡方检验相对于相关系数有什么好处?

    作者回复: 原理是类似的,但是假设和具体实现有所不同,个人觉得可以在实验中都尝试一下看看效果

    
    
  • William
    2019-08-20
    老师,在计算信息增益的公式中,P(cj|Dfi)和P(cj|Dfi)【带横杠】中的cj的含义应该是不同的吧?前者是出现fi特征的数据集合中第j个分类,后者是未出现fi特征的数据集合中第j个数据的分类。

    作者回复: 对的

    
    
  • zhulihui
    2019-03-21
    老师好,想问个问题,一定要做特征选择么,能说说特征选择的必要性么。如果把所有特征都扔到模型会有什么副作用

    作者回复: 这是个好问题,通常要结合具体的案例和数据来看。如果特征数量很少的时候,一般不需要。如果特征太多,而样本不是很多的时候,容易过拟合,而且使用全部的特征效率也比较差,这个时候特征选择就有意义了

    
    
  • Bora.Don
    2019-03-10
    老师,您好,感觉最近几节课您讲了很多概念,很多公式,可是运用上的实例似乎有点少,第一遍看懂了,可是过两天估计就忘记了,能否提供一下代码?这样可以自己动手操作一遍,非常感谢

    作者回复: 我在专栏结束后整理一下,供大家参考

    
    
  • 闪光辉
    2019-03-06
    为什么不少地方卡方的计算公式=sum((A-T)^2/T) 的区别是什么(备注:A是实际值,T是理论值),其区别是什么

    作者回复: 你说的应该是卡方检验,两者概念有所不同。

    
    
我们在线,来聊聊吧