• Wing·三金
    2019-04-04
    思考题:
    基于分类的特征选择
    优点:可以根据标签,有针对性地选择特征,可解释性强;
    缺点:若是已有的特征未能反映数据的本质关系,可能会起不到精简特征的作用,因为每个特征几乎同等地重要。

    基于 PCA 的特征降维:
    优点:可以组合相关性强的特征维度,挖掘数据的本质特征;
    缺点:因为失去了原始特征的描述,导致新的特征可解释性很差。
    展开

    作者回复: 写得很到位

    
     5
  • 半城柳色 / ...
    2019-07-24
    这也是为什么,我们需要使用原始的数据去左乘这个特征向量,来获取降维后的新数据。

    对于这句话还是不太理解,这个特征向量是协方差矩阵的特征向量,如果是协方差矩阵乘上特征向量,就能使得特征向量伸缩,也就是获得了协方差矩阵的主要方向(在特征值最大情况下),但是原始数据乘上协方差矩阵的特征向量,为啥得到的也是它的主成分?

    作者回复: 你可以这么理解,协方差特征向量,告诉你了哪些特征是强相关的,并把这些强相关的特征捆绑在一起,组成一个新的维度达到降维的效果。所以原始数据左乘这个特征向量就是为了达到把若干强相关的原始特征值捆绑在一起,生成一个新的特征值,最终达到降维的目的。一个矩阵乘以自己的特征向量并不一定能达到降维的效果。

    
     2
  • Paul Shan
    2019-10-10
    我个人的理解,基于分类标签的选择主要选择那些和预测结果相关度高的特征,这类似于从结果出发反向选择那些有紧密联系的特征。这种方法精度较高,而且特征是原始的,容易理解。但是需要大量有标记的数据。
    而PCA主成分分析法是从特征出发,分析特征之间的相关性和特征本身的信息量,最终重新合成特征,这些新的特征最大程度包含原特征的信息量。这种方法的好处是不需要标记数据。缺点是只是对特征分析,现实世界预测列和特征列的关系可能并不是特征列之间的相关性就能表达,而且新的特征是合成的,不好理解。

    作者回复: 很好的总结👍

    
     1
  • 小美
    2019-03-25
    老师你好,问一下离散型的纬度是不是不适合参与这种方式降纬啊?如果有纬度是离散的,那应该怎么处理呢?

    作者回复: 只要是数值型,如果是离散的也是可以的。如果不是数值型,要看看能否转换成数值型,以及转成数值型之后大小变化是否还有意义。

    
     1
  • 拉欧
    2019-03-25
    基于分类标签的特征选择是监督式的,基于PCA的主成分分析是非监督式的,前者需要测试数据进行学习,后者不需要,可以这么理解么?

    作者回复: 理解的没错

    
     1
  • 南边
    2020-01-14
    # 输出变换后的数据矩阵。注意,这里的三个值是表示三个样本,而特征从3维变为1维了。print("变换后的数据矩阵:", x_s.dot(eigVect_with_max_eigVal), "\n")

    上一节说是原数据矩阵和特征向量的左乘,怎么这个用的却是标准化以后的矩阵和特征向量左乘

    作者回复: 这个原文没有说清楚,PCA本身是不要求标准化的,不过机器学习的特征一般都会进行标准化,便于比较不同变量的重要性

    
    
  • F大圣
    2020-01-09
    PCA终于懂了,蟹蟹黄老师

    作者回复: 很高兴对你有价值

    
    
  • 黄振宇
    2019-11-29
    刚刚还在上一篇有疑问,在这一节就得到解惑了。
    “”需要注意的是,这个新的方向,往往不代表原始的特征,而是多个原始特征的组合和缩放。“”

    作者回复: 很高兴对你有帮助

    
    
  • 动摇的小指南针
    2019-07-15
    老师,PCA的原理实际上就想使目标矩阵X的列向量组x1,x2,x3..方差最大,同时协方差为0。而协方差矩阵刚好满足这样的特征,只需要找到可以让协方差矩阵对角化的矩阵P,就可以使x1,x2,x3的彼此协方差化为0(即正交),而保留方差的特征,而对角化的矩阵P也就是X矩阵的特征向量集合。不知道我说的对不对

    作者回复: 是的,主要的思想就是如此

    
    
  • 余泽锋
    2019-04-11
    关于选择协方差作为PCA分析的对象,有些困惑。
    本质上,皮尔森系数和数据标准化的协方差是一致的,那么皮尔森系数是不是跟协方差一样可以拿来衡量信息量的大小和不同维度之间的相关性。
    那么选择协方差或者皮尔森系数作为PCA分析的对象岂不是差不多?

    作者回复: 理论上来说确实如此,我们可以通过代码来比较一下结果。

    
    
  • 余泽锋
    2019-04-11

    思考题:
    分类的特征选择
    基于人工主观意识

     PCA 的特征降维:
    基于统计学
    展开
    
    
  • qinggeouye
    2019-03-31
    「可对角化的矩阵,对角化后对角线上的元素就是特征值」
    https://blog.csdn.net/danieljianfeng/article/details/22171581
    
    
我们在线,来聊聊吧