极客时间
21天打卡行动 13/21
<<人工智能基础课15>>降维学习
今日是2019年最后一天,在学习中度过;人生值得;
回答老师问题:降维操作实质上体现出的是主要矛盾和次要矛盾的取舍问题。在资源有限的条件下,一定要优先解决主要矛盾。那么你能想到这种思想在生活中或是科学技术上的哪些其他应用呢?
今日早上在<<得到>>课中也听了这个理论,解决问题的关键是抓住主要矛盾,在政治课中的解释是,事物发展过程中处于支配地位、对事物发展起决定作用的矛盾就是主要矛盾。其他处于从属地位、对事物发展不起决定作用的矛盾则是次要矛盾;
今日所学:
1,根据凡事抓主要矛盾的原则,对举足轻重的属性要给予足够的重视,无关紧要的属性则可以忽略不计,这在机器学习中就体现为降维的操作;
2,主成分分析是一种主要的降维方法,它利用正交变换将一组可能存在相关性的变量转换成一组线性无关的变量,这些线性无关的变量就是主成分;
3,在实际的数据操作中,主成分分析解决的就是确定以何种标准确定属性的保留还是丢弃,以及度量降维之后的信息损失;
4,操作步骤:数据规范化,协方差矩阵计算,特征值分解,降维处理,数据投影;
5,主成分分析中降维的实现并不是简单地在原始特征中选择一些保留,而是利用原始特征之间的相关性重新构造出新的特征;
6,样本点在超平面上的投影尽可能分散体现出的是最大方差原理。
7,一个经验方法是保留所有大于 1 的特征值,以其对应的特征向量来做坐标变换;
8,主成分分析能够对数据进行降维处理,保留正交主成分中最重要的部分,在压缩数据的同时最大程度地保持了原有信息。主成分分析的优点在于完全不受参数的限制,即不需要先验的参数或模型对计算过程的人为干预,分析的结果只与数据有关。但有得必有失,这个特点的另一面是即使用户具有对训练数据集的先验知识,也没有办法通过参数化等方法加以利用。
9,解决以上问题的办法是将支持向量机中介绍过的核技巧引入主成分分析,将先验知识以非线性变换的形式体现,因而扩展了主成分分析的应用范围;
10,特征选择的出发点在于去除不相关的特征往往能够降低学习任务的难度,它和主成分分析共同构成了处理高维数据的两大主流技术;
11,特征选择算法是搜索新的特征子集和对搜索结果进行评估两个步骤的组合;
12根据评价方式的不同,特征选择算法主要可以分为包裹法、过滤法和嵌入法三类;
总结:
今日讲课的重点:
1,主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性,并通过选择重要的新属性实现降维;
2,主成分分析的解满足最大方差和最小均方误差两类约束条件,因而具有最大可分性和最近重构性;
3,特征选择则是选取原始特征中的一个子集用于学习任务,是另一种主要的降维技术;
4,特征选择的关键问题是对特征子集的评价,主要的特征选择算法包括包裹法、过滤法和嵌入法。
展开