15 机器学习 | 好钢用在刀刃上：降维学习

王天一



该思维导图由 AI 生成，仅供参考

毛主席在《矛盾论》中提出了主要矛盾和次要矛盾的概念：“研究任何过程，如果是存在着两个以上矛盾的复杂过程的话，就要用全力找出它的主要矛盾。”这种哲学观点也可以用来指导机器学习。
一个学习任务通常会涉及样本的多个属性，但并非每个属性在问题的解决中都具有同等重要的地位，有些属性可能举足轻重，另一些则可能无关紧要。根据凡事抓主要矛盾的原则，对举足轻重的属性要给予足够的重视，无关紧要的属性则可以忽略不计，这在机器学习中就体现为降维的操作。
主成分分析是一种主要的降维方法，它利用正交变换将一组可能存在相关性的变量转换成一组线性无关的变量，这些线性无关的变量就是主成分。多属性的大样本无疑能够提供更加丰富的信息，但也不可避免地增加了数据处理的工作量。更重要的是，多数情况下不同属性之间会存在相互依赖的关系，如果能够充分挖掘属性之间的相关性，属性空间的维度就可以降低。
在现实生活中少不了统计个人信息的场合，而在个人信息的表格里通常会包括“学历”和“学位”两个表项。因为学位和学历代表着两个独立的过程，因此单独列出是没有问题的。但在我国现行的惯例下，这两者通常会一并取得。两者之间的相关性足以让我们根据一个属性的取值去推测另一个属性的取值，因此只要保留其中一个就够了。
但这样的推测是不是永远准确呢？也不是。如果毕业论文的答辩没有通过，就会出现只有学历而没有学位的情形；对于在职研究生来说，只有学位没有学历的情形也不稀奇。这说明如果将学历和学位完全等同，就会在这些特例上出现错误，也就意味着信息的损失。这是降维操作不可避免的代价。
以上的例子只是简单的定性描述，说明了降维的出发点和可行性。在实际的数据操作中，主成分分析解决的就是确定以何种标准确定属性的保留还是丢弃，以及度量降维之后的信息损失。
从几何意义来看，主成分分析是要将原始数据拟合成新的 n 维椭球体，这个椭球体的每个轴代表着一个主成分。如果椭球体的某个轴线较短，那么该轴线所代表的主成分的方差也很小。在数据集的表示中省略掉该轴线以及其相应的主成分，只会丢失相当小的信息量。具体说来，主成分分析遵循如下的步骤：
数据规范化：对 m 个样本的相同属性值求出算术平均数，再用原始数据减去平均数，得到规范化后的数据；
协方差矩阵计算：对规范化后的新样本计算不同属性之间的协方差矩阵，如果每个样本有 n 个属性，得到的协方差矩阵就是 n 维方阵；
特征值分解：求解协方差矩阵的特征值和特征向量，并将特征向量归一化为单位向量；
降维处理：将特征值按照降序排序，保留其中最大的 k 个，再将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵；
数据投影：将减去均值后的 m×n 维数据矩阵和由 k 个特征向量组成的 n×k 维特征向量矩阵相乘，得到的 m×k 维矩阵就是原始数据的投影。
经过这几步简单的数学运算后，原始的 n 维特征就被映射到新的 k 维特征之上。这些相互正交的新特征就是主成分。需要注意的是，主成分分析中降维的实现并不是简单地在原始特征中选择一些保留，而是利用原始特征之间的相关性重新构造出新的特征。
为什么简单的数学运算能够带来良好的效果呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文以毛主席的矛盾论为引子，探讨了机器学习中的降维技术，着重介绍了主成分分析和特征选择两种降维方法。主成分分析通过正交变换将相关性较强的属性转换为线性无关的主成分，从而减少数据维度，具有最大可分性和最近重构性的特点。另一方面，特征选择则是选取原始特征中的一个子集用于学习任务，主要应用于特征较多而样本较少的问题中。文章还介绍了特征选择算法的包裹法、过滤法和嵌入法，以及它们的优缺点。此外，文章指出了主成分分析无法处理非线性相关性的局限性，并提出了引入核技巧的方法来扩展其应用范围。总的来说，本文通过深入浅出的方式介绍了机器学习中降维的重要性和方法，对于读者快速了解降维技术具有一定的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(10)

最新
精选

听天由己
这一方面很容易想到人生中最重要的就是，寻找每个时期最重要的时期，不断拆分，继而聚焦注意力，实现最大的价值产出，对于学生而言，高考或是考研必然成为同时期最重要的事情，花再多的努力也不为过，前提是自愿去这么做。日常工作更是如此，面对繁杂的任务，按照优先级去进行排序和划分才能够最大程度上优化我们的人生选择。
作者回复: 没错，先有规划再有行动
2018-03-10

8
全全
天一老师，我看挺多论文研究bounds的，什么Cramer-rao bounds 还有generalize spectral bounds for sparse lda，您能给我说说bounds到底做什么用的老师，您回答我吧线性回归那一节的留言，您一起回答我一下吧！谢谢
作者回复: 所有的bound给出的都是一个界，也就是要么最好要么最差的情况。CR界说的是确定参数估计的方差下界，也就是估计值围绕真实值最小的波动幅度。多次独立重复估计的统计特性不可能比CR界再好了。别的各种各样的界也是一样，在某个问题中，某种条件下能达到的最好或者最差性能，这是发论文一个重要的主题。但界给出的只是一种极限的情况，没有给出达到这个极限的方法，相当于只是证明了存在性。
2019-03-22


杨家荣
极客时间 21天打卡行动 13/21 <<人工智能基础课15>>降维学习今日是2019年最后一天,在学习中度过;人生值得; 回答老师问题:降维操作实质上体现出的是主要矛盾和次要矛盾的取舍问题。在资源有限的条件下，一定要优先解决主要矛盾。那么你能想到这种思想在生活中或是科学技术上的哪些其他应用呢？今日早上在<<得到>>课中也听了这个理论,解决问题的关键是抓住主要矛盾,在政治课中的解释是,事物发展过程中处于支配地位、对事物发展起决定作用的矛盾就是主要矛盾。其他处于从属地位、对事物发展不起决定作用的矛盾则是次要矛盾; 今日所学: 1,根据凡事抓主要矛盾的原则，对举足轻重的属性要给予足够的重视，无关紧要的属性则可以忽略不计，这在机器学习中就体现为降维的操作; 2,主成分分析是一种主要的降维方法，它利用正交变换将一组可能存在相关性的变量转换成一组线性无关的变量，这些线性无关的变量就是主成分; 3,在实际的数据操作中，主成分分析解决的就是确定以何种标准确定属性的保留还是丢弃，以及度量降维之后的信息损失; 4,操作步骤:数据规范化,协方差矩阵计算,特征值分解,降维处理,数据投影; 5,主成分分析中降维的实现并不是简单地在原始特征中选择一些保留，而是利用原始特征之间的相关性重新构造出新的特征; 6,样本点在超平面上的投影尽可能分散体现出的是最大方差原理。 7,一个经验方法是保留所有大于 1 的特征值，以其对应的特征向量来做坐标变换; 8,主成分分析能够对数据进行降维处理，保留正交主成分中最重要的部分，在压缩数据的同时最大程度地保持了原有信息。主成分分析的优点在于完全不受参数的限制，即不需要先验的参数或模型对计算过程的人为干预，分析的结果只与数据有关。但有得必有失，这个特点的另一面是即使用户具有对训练数据集的先验知识，也没有办法通过参数化等方法加以利用。 9,解决以上问题的办法是将支持向量机中介绍过的核技巧引入主成分分析，将先验知识以非线性变换的形式体现，因而扩展了主成分分析的应用范围; 10,特征选择的出发点在于去除不相关的特征往往能够降低学习任务的难度，它和主成分分析共同构成了处理高维数据的两大主流技术; 11,特征选择算法是搜索新的特征子集和对搜索结果进行评估两个步骤的组合; 12根据评价方式的不同，特征选择算法主要可以分为包裹法、过滤法和嵌入法三类; 总结: 今日讲课的重点: 1,主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性，并通过选择重要的新属性实现降维； 2,主成分分析的解满足最大方差和最小均方误差两类约束条件，因而具有最大可分性和最近重构性; 3,特征选择则是选取原始特征中的一个子集用于学习任务，是另一种主要的降维技术； 4,特征选择的关键问题是对特征子集的评价，主要的特征选择算法包括包裹法、过滤法和嵌入法。
2019-12-31

3
张煌
以经济建设为中心，大力发展生产力。。。
2018-12-04

3
ifelse
学习打卡
2023-05-04归属地：浙江

1
老李的极客时间
讲的不错，长得越丑技术越好这句话说的一点都没错
2023-07-29归属地：天津


Geek_HanX2
高维数据：特征提取（PCA）；特征选择
2022-11-28归属地：湖南


彭涛
老师，好像毕业答辩不通过的话，没有毕业证书吧，应该不能算获得学历
2021-07-05


黄振宇
有个问题，王老师能否帮忙解答下。降维后的特征集合是之前所有特征的子集合吗，是相当于是先对数据的特征向量做了筛选吗？只不过我们把筛选的工作交给了特征值？因为您后面也提到了特征选择，如果我们在特征选择时候做的足够好，这二者是不是等价的？或者是说降维后，乘以新的特征向量，原始数据的意义是否变了呢？
2019-11-29
1

haiker
80/20原则
2018-11-06



收起评论