机器学习40讲
王天一
工学博士,副教授
立即订阅
8006 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

13 | 线性降维:主成分的使用

王天一 2018-07-03
在前一篇文章中,我以岭回归和 LASSO 为例介绍了线性回归的正则化处理。这两种方法都属于收缩方法(shrinkage method),它们能够使线性回归的系数连续变化。但和岭回归不同的是,LASSO 可以将一部分属性的系数收缩为 0,事实上起到了筛选属性的作用。
和 LASSO 这种间接去除属性的收缩方法相对应的是维度规约。维度规约这个听起来个高大上的名称是数据挖掘中常用的术语,它有一个更接地气的同义词,就是降维(dimensionality reduction),也就是直接降低输入属性的数目来削减数据的维度。
对数据维度的探讨来源于“维数灾难”(curse of dimensionality),这个概念是数学家理查德·贝尔曼(Richard Bellman)在动态优化问题的研究中提出的。
发表于《IEEE 模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence)第 1 卷第 3 期的论文《维数问题:一个简单实例(A Problem of Dimensionality: A Simple Example)》在数学上证明了当所有参数都已知时,属性维数的增加可以让分类问题的错误率渐进为 0;可当未知的参数只能根据数量有限的样本来估计时,属性维数的增加会使错误率先降低再升高,最终收敛到 0.5。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(5)

  • 林彦
    PCA和ICA都是把原始特征线性组合转换成新的不相关的特征,PCA里转换后的特征是正交的。网上搜索到的ICA会在数据白化预处理(data whitening)用到PCA,我的理解ICA转换产生的特征也是正交的。

    PCA和LDA都是以观测数据点呈高斯分布为假设前提,而ICA假设观测信号是非高斯分布的信号源的线性组合,信号源分量都不是高斯分布或者最多只有一个是高斯分布。

    ICA生成的新特征分量不仅是不相关的,而且要求是统计独立的。我的理解是这个要求比PCA的不相关或正交要求更高,包含更多信息。PCA的数据有可能不是由一些互相统计独立的特征分量生成的。如何区别ICA中的统计独立和PCA中的不相关/正交我不懂。有文章提到在原始随机信号x是高斯随机向量,其PCA变换得到的y也是高斯随机向量,y的各个分量不仅是线性无关的,它们还是独立的。这段描述令我对线性无关和独立的区别更加困惑。

    PCA选择新特征时用方差作为衡量标准,ICA根据网上部分描述会用到“非高斯性度量“来作为衡量标准。这里是不是衡量标准一定会有区别我不确定。

    作者回复: ICA是盲源分离的一种手段,它假设接收到的数据来源于统计独立的不同分量的线性叠加,所以它的独立性是解决问题的前提。典型的例子是鸡尾酒会问题:酒会上人声嘈杂,不同的声音混在一起,ICA就要实现解混,分解出每个人的声音。
    统计独立的概念要强于不相关。不相关只需要协方差为0,统计独立则要求联合分布等于各自分布的乘积。所以在评价ICA时,指标的核心在于不同成分之间是不是真的独立,方差这些则不在关注范围。
    之所以关注非高斯性是由于中心极限定理说明了大量随机独立分布的叠加是高斯分布。独立成分的非高斯性可以保证分离结果的可辨识性。从机器学习角度看,ICA应该属于一种隐变量模型。

    2018-07-04
    2
  • Howard.Wundt
    老师的文章排版非常优美,值得学习。
    目前极客时间导出到印象笔记时,版面会发生变化,公式与文字之间错位严重,各位同学有何好办法处理之?
    2018-10-03
  • zhoujie
    收缩方法可以使系数连续变化,这里“连续变化”怎么理解,收缩方法可以使系数缩小或者带来稀疏可以理解

    作者回复: 意思是不会从1跳变到0,而是按1 0.9 0.8 0.7这样地变化

    2018-09-10
  • paradox
    老师,您好
    对于用SVD解释PCA
    是不是
    行数表示特征数,列数表示数据样本的个数,这样SVD后,就是U矩阵用作降维了。
    如果是行数表示数据样本的个数,列数表示特征数,SVD后,就是V矩阵用作降维了。

    作者回复: 一般都是你说的后一种情况,就是把同一个数据写成矩阵的一个行,很少有写成列的。像sklearn这些成熟的库也是这样处理。

    2018-08-10
  • 兆熊
    和第一季相比,第二季每篇文章的篇幅长了很多。建议老师将长文章一分为二,将每篇文章的语音控制在十分钟左右,以达到更好的学习效果。

    作者回复: 这个我和极客时间的团队反映一下。

    2018-07-03
收起评论
5
返回
顶部