• 刘祯
    2018-03-10
    这一方面很容易想到人生中最重要的就是,寻找每个时期最重要的时期,不断拆分,继而聚焦注意力,实现最大的价值产出,对于学生而言,高考或是考研必然成为同时期最重要的事情,花再多的努力也不为过,前提是自愿去这么做。日常工作更是如此,面对繁杂的任务,按照优先级去进行排序和划分才能够最大程度上优化我们的人生选择。

    作者回复: 没错,先有规划再有行动

    
     5
  • 张煌
    2018-12-04
    以经济建设为中心,大力发展生产力。。。
    
     1
  • Geek_59
    2019-12-31
    极客时间
    21天打卡行动 13/21
    <<人工智能基础课15>>降维学习
    今日是2019年最后一天,在学习中度过;人生值得;
    回答老师问题:降维操作实质上体现出的是主要矛盾和次要矛盾的取舍问题。在资源有限的条件下,一定要优先解决主要矛盾。那么你能想到这种思想在生活中或是科学技术上的哪些其他应用呢?
    今日早上在<<得到>>课中也听了这个理论,解决问题的关键是抓住主要矛盾,在政治课中的解释是,事物发展过程中处于支配地位、对事物发展起决定作用的矛盾就是主要矛盾。其他处于从属地位、对事物发展不起决定作用的矛盾则是次要矛盾;
    今日所学:
    1,根据凡事抓主要矛盾的原则,对举足轻重的属性要给予足够的重视,无关紧要的属性则可以忽略不计,这在机器学习中就体现为降维的操作;
    2,主成分分析是一种主要的降维方法,它利用正交变换将一组可能存在相关性的变量转换成一组线性无关的变量,这些线性无关的变量就是主成分;
    3,在实际的数据操作中,主成分分析解决的就是确定以何种标准确定属性的保留还是丢弃,以及度量降维之后的信息损失;
    4,操作步骤:数据规范化,协方差矩阵计算,特征值分解,降维处理,数据投影;
    5,主成分分析中降维的实现并不是简单地在原始特征中选择一些保留,而是利用原始特征之间的相关性重新构造出新的特征;
    6,样本点在超平面上的投影尽可能分散体现出的是最大方差原理。
    7,一个经验方法是保留所有大于 1 的特征值,以其对应的特征向量来做坐标变换;
    8,主成分分析能够对数据进行降维处理,保留正交主成分中最重要的部分,在压缩数据的同时最大程度地保持了原有信息。主成分分析的优点在于完全不受参数的限制,即不需要先验的参数或模型对计算过程的人为干预,分析的结果只与数据有关。但有得必有失,这个特点的另一面是即使用户具有对训练数据集的先验知识,也没有办法通过参数化等方法加以利用。
    9,解决以上问题的办法是将支持向量机中介绍过的核技巧引入主成分分析,将先验知识以非线性变换的形式体现,因而扩展了主成分分析的应用范围;
    10,特征选择的出发点在于去除不相关的特征往往能够降低学习任务的难度,它和主成分分析共同构成了处理高维数据的两大主流技术;
    11,特征选择算法是搜索新的特征子集和对搜索结果进行评估两个步骤的组合;
    12根据评价方式的不同,特征选择算法主要可以分为包裹法、过滤法和嵌入法三类;
    总结:
    今日讲课的重点:
    1,主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维;
    2,主成分分析的解满足最大方差和最小均方误差两类约束条件,因而具有最大可分性和最近重构性;
    3,特征选择则是选取原始特征中的一个子集用于学习任务,是另一种主要的降维技术;
    4,特征选择的关键问题是对特征子集的评价,主要的特征选择算法包括包裹法、过滤法和嵌入法。
    展开
    
    
  • 黄振宇
    2019-11-29
    有个问题,王老师能否帮忙解答下。
    降维后的特征集合是之前所有特征的子集合吗,是相当于是先对数据的特征向量做了筛选吗?只不过我们把筛选的工作交给了特征值?因为您后面也提到了特征选择,如果我们在特征选择时候做的足够好,这二者是不是等价的?

    或者是说降维后,乘以新的特征向量,原始数据的意义是否变了呢?
    
    
  • 全全
    2019-03-22
    天一老师,我看挺多论文研究bounds的,什么Cramer-rao bounds 还有generalize spectral bounds for sparse lda,您能给我说说bounds到底做什么用的
    老师,您回答我吧
    线性回归那一节的留言,您一起回答我一下吧!谢谢

    作者回复: 所有的bound给出的都是一个界,也就是要么最好要么最差的情况。CR界说的是确定参数估计的方差下界,也就是估计值围绕真实值最小的波动幅度。多次独立重复估计的统计特性不可能比CR界再好了。别的各种各样的界也是一样,在某个问题中,某种条件下能达到的最好或者最差性能,这是发论文一个重要的主题。
    但界给出的只是一种极限的情况,没有给出达到这个极限的方法,相当于只是证明了存在性。

    
    
  • haiker
    2018-11-06
    80/20原则
    
    
  • zhoujie
    2018-09-30
    PCA在求解的过程中只用到了样本均值和方差,那是不是可以认为PCA默认做了假设,它认为数据本身是服从高斯分布的?

    作者回复: 并没有,但PCA针对高斯分布的效果最好,因为不相关的高斯分布实际就是独立的。

    
    
我们在线,来聊聊吧