机器学习40讲
王天一
工学博士,副教授
立即订阅
7950 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

18 | 从全局到局部:核技巧

王天一 2018-07-14
俗话说得好:“支持向量机有三宝,间隔对偶核技巧”。在上一篇文章中我和你分享了间隔这个核心概念,今天就来看看对偶和核技巧的使用。对偶性主要应用在最优决策边界的求解中,其逻辑比较简单。
但在介绍核技巧时,会先后涉及核函数、核方法、核技巧这些近似的概念。虽然从名字上看,它们都是“核”字辈的兄弟,但是在含义和用途上却不能一概而论,因此有必要对它们做一些系统的梳理。
当支持向量机用于线性可分的数据时,不同类别的支持向量到最优决策边界的距离之和为 ,其中的 是超平面的线性系数,也就是法向量。不难看出,让间隔 最大化就是让 最小化,所以线性可分的支持向量机对应的最优化问题就是
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(8)

  • 林彦
    王老师,请问径向基函数中的gamma参数变大,即高斯核的宽度变窄适用于什么场景?

    调用scikit-learn的包时,一些默认参数无法分类的数据当把gamma值变大后,数据出现了较好分类的边界。什么情况下应该调整gamma参数?往什么方向调由什么因素决定?

    谢谢。

    作者回复: 核的带宽越小意味着每个样本点影响的范围就越小,新样本就越发取决于离它最近的训练数据。当带宽趋近于0时,核函数就变成1近邻了。
    调小带宽肯定有利于降低训练误差,但也会增加过拟合的风险。如何调整这个超参数恐怕也没有一定之规,只能通过交叉验证找到训练误差和泛化误差的折中的最优值。

    2018-08-07
    1
  • 刘強
    老师,现在人工智能依赖信息的表示方式吗?比如现在计算机处理的信息都是二进制表示的,如果换一种表示方式,人工只能还灵不灵?如果依赖的话,现在所遇到的各种难题会不会是二进制的局限性导致的?

    作者回复: 这个恐怕没什么关系,因为只要使用计算机就要用二进制。即使不是二进制也会是四进制六进制八进制这些离散的表示。

    2018-07-16
    1
  • 林彦
    支持向量机的推导公式我理解起来有些费劲。

    (1) 第一组公式里s.t. yi(w⋅xi+b)≤1 是不是 s.t. yi(w⋅xi+b)≥1?这样在已知拉格朗日函数中alpha_i ≥ 0,后面的陈述“由于alpha_i 和 1−yi(w⋅xi+b)的符号相反,因此两者之积必然是小于0的“成立时需满足yi(w⋅xi+b)≥1。

    (2) 我的理解:求解原问题(primal problem)相当于求解改写成所谓的广义拉格朗日函数(对偶函数?)的最大值(对于alpha)。因此“对于不是支持向量的数据点来说,等式右侧第二项中的1−yi(w⋅xi+b)是大于0的...”这句是不是可以写作“对于不是支持向量的数据点来说,等式右侧第二项中的1−yi(w⋅xi+b)是小于0的,因此在让L(w,b,α)最大化时,必须把这些点的贡献去除,去除的方式就是让系数alpha_i = 0”?

    (3) “当参数w和b不满足原问题的约束时,总会找到能让目标函数取值为正无穷的alpha,这意味着最大值其实就是不存在。”里的参数w和b不满足原问题的约束等同于yi(w⋅xi+b)<1和1−yi(w⋅xi+b)>0?

    (4) “原始的最小化问题就被等效为min<w,b>θp(w,b)⁡,也就是广义拉格朗日函数的极小极大问题”这里为什么等效于对于w和b求广义拉格朗日函数L(w,b,α)的最小值我不是太理解。除了我们需要寻找一个由w和b定义的超平面,它们到分类点的最近距离等同于||w||值最小(满足原问题的s.t.条件时)感觉有些联系外。就不太理解一个原来的受不等式约束的最小值问题是如何变成一个受等式约束(除了拉格朗日乘子的非负约束外)的既求最大值也求最小值的问题的。

    (5) 上一季中的课程还未全部阅读。请问老师提到的鞍点(saddle point)是在哪一部分出现的?现在没什么印象了。谢谢。

    作者回复: 感谢你的仔细指出:
    1. 应该是大于号,支持向量机的定义说的就是这个事情,这是不该有的错误。
    2. 根据1可以得到,等式右侧那一项应该是小于0的,这是因为拉格朗日的形式一般是让约束条件满足小于0。
    3. 这里的约束就是文中第一个表达式的约束,只有服从这个约束,拉格朗日才有最小值。
    4. 这个过程是由数学运算和KKT保证的。它的目的是为了简化运算。直接用二次规划求原问题很复杂,运算复杂度取决于样本数目。引入拉格朗日这一套之后,求w变成了求alpha,而alpha中的非零项又不多,这样就可以简化运算。对偶问题的作用在吴恩达cs229支持向量机note的第13页有说明,你可以看看。
    5. 深度学习中的优化 这一篇。

    2018-07-15
    1
  • 婉儿飞飞
    “支持向量机对原问题和对偶问题之间等价关系的利用就是它的对偶性(duality)。”
    这句话似乎也有点问题。首先,对偶性是拉格朗日函数的性质,任何带约束的非线性规划问题都可以写出对偶函数。
    其次,主问题和对偶问题等价,不是利用了对偶性,而是因为满足KKT条件时,强对偶成立成立,也就是主偶问题的解相等。
    最后,从拉格朗日函数里并不能看出最优解只和支持向量相关,而是由于KKT条件里的“对偶互补性条件”可推出。也就是,第j个输入向量的拉格朗日因子a_j大于0小于惩罚因子C时,向量j落在wx+b=1的边界上,从这里才能看出来只和支持向量相关。

    作者回复: 感谢认真阅读。你说的没错,文中前面也提到了KKT。但是因为没有做详细的展开,所以这里一概地把它归结到对偶性上,便显得突兀。你的留言对这个问题做了更清楚的说明,希望其他同学也能看到。

    2019-07-21
  • 风的轨迹
    王老师这篇文章真好,我终于把与“核”相关的三个概念(核函数,核方法,核技巧)搞明白了。之前在别的教程里看到有"先引入相似度函数,在相似度函数的基础上再引入核函数的"这样的讲解方法。当时我就在想难道核方法和相似度上有某种联系?看了老师这篇文章才恍然大悟,原来核函数确实有局部化的特点。同时径向函数又把径向神经网络联系起来,透过知识点的相互联系我有感觉到这些相互联系的知识点背后可能存在一个更高层的思想把他们统一起来的感觉,我想我已经摸到了一些门路了吧

    作者回复: 感谢你的分享,能带给读者这样的启示是我最想看到的。

    2018-12-10
  • 李奕辰的爸爸
    请问下老师,您文章里有句话是这么说的:
    对于不是支持向量的数据点来说,等式右侧第二项中的 1−yi(w⋅xi+b)是大于 0 的
            不是支持向量的数据点指的是误分类点吗?如果不是,那按照原始优化问题说的yi(w⋅xi+b)≧1的,这就和你前面说的矛盾了

    作者回复: 不是误分类点,而是与最优边界生成无关的数据点。边界只取决于距离最近的那几个异类点,离边界较远的都是非支持向量。

    2018-11-28
  • zhoujie
    线性可分的支持向量机是一个标准的凸二次规划问题,求解起来轻松加随意,既然如此,那么对于线性可分的问题,为何要通过拉格朗日乘子引入它的对偶问题?

    作者回复: 对偶问题的作用在吴恩达cs229支持向量机note的第13页有说明,你可以看看。求解对偶问题相当于求解拉格朗日乘子alpha,而alpha只在支持向量上有非零取值。同时对偶问题中的内积运算可以用核技巧来处理,这些都可以简化运算。

    2018-09-10
  • 林彦
    https://blog.csdn.net/deepinC/article/details/79341632和https://www.cnblogs.com/90zeng/p/Lagrange_duality.html对于理解拉格朗日函数会有一些帮助。
    2018-07-15
收起评论
8
返回
顶部