12 机器学习 | 穷则变，变则通：支持向量机

王天一



该思维导图由 AI 生成，仅供参考

1963 年，在前苏联莫斯科控制科学学院攻读统计学博士学位的弗拉基米尔·瓦普尼克和他的同事阿列克谢·切尔沃宁基斯共同提出了支持向量机算法，随后几年两人又在此基础上进一步完善了统计学习理论。可受当时国际环境的影响，这些以俄文发表的成果并没有得到西方学术界的重视。直到 1990 年，瓦普尼克随着移民潮到达美国，统计学习理论才得到了它应有的重视，并在二十世纪末大放异彩。瓦普尼克本人也于 2014 年加入 Facebook 的人工智能实验室，并获得了包括罗森布拉特奖和冯诺伊曼奖章等诸多个人荣誉。
具体说来，支持向量机是一种二分类算法，通过在高维空间中构造超平面实现对样本的分类。最简单的情形是训练数据线性可分的情况，此时的支持向量机就被弱化为线性可分支持向量机，这可以视为广义支持向量机的一种特例。
线性可分的数据集可以简化为二维平面上的点集。在平面直角坐标系中，如果有若干个点全部位于 x 轴上方，另外若干个点全部位于 x 轴下方，这两个点集就共同构成了一个线性可分的训练数据集，而 x 轴就是将它们区分开来的一维超平面，也就是直线。
如果在上面的例子上做进一步的假设，假定 x 轴上方的点全部位于直线 y=1 上及其上方，x 轴下方的点全部位于直线 y=−2 上及其下方。如此一来，任何平行于 x 轴且在 (-2, 1) 之间的直线都可以将这个训练集分开。那么问题来了：在这么多划分超平面中，哪一个是最好的呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

支持向量机（SVM）是一种重要的机器学习算法，主要用于解决分类问题。该算法通过构造超平面在高维空间中对样本进行分类，包括线性可分支持向量机、线性支持向量机和非线性支持向量机。在线性可分情况下，SVM通过最大化间隔学习最优的划分超平面；而在线性不可分情况下，引入松弛变量和惩罚参数，演变为线性支持向量机，允许一定数量的异常点存在。对于非线性问题，SVM利用核技巧将样本从原始空间映射到更高维度的特征空间，从而将非线性问题转化为线性问题。核函数的选择是关键问题，常用的核函数包括线性核、多项式核、高斯核、拉普拉斯核和Sigmoid核。在算法实现的过程中，支持向量机会遇到全局最优解难以求得的尴尬，而高效实现支持向量机的主要算法是SMO算法。支持向量机的学习是个凸二次规划问题，可以用SMO算法快速求解。最终模型只与支持向量有关，这也是“支持向量机”这个名称的来源。总体而言，支持向量机是一种强大的分类算法，对于理解和应用机器学习算法具有重要意义。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(12)

最新
精选

geoxs
关于棋盘的例子，我觉得这样说更好一点:棋盘的棋子本来没有颜色，所以厮杀后就无法分类了，这时候加上一个颜色维度，人类就可以看一眼就对棋子进行准确的分类
作者回复: 主要是边界的问题，没有下棋之前棋子各排两边，一条直线就能分开；但下棋之后相互交错，需要更复杂的曲线形状边界。
2019-01-16

2
lonelyandrew
软间隔最大化下的约束条件，第二个不等式，≤右侧的表达式是否应该为-1＋/xi_i？
作者回复: 留言里数学符号显示有问题，但你写的应该是对的。
2018-06-06

1
wolfog
王老师您第九段的那两个公式(WTX+B>=1).我在看其他资料的时候,假设函数间隔为1,所以就有了y(WTX+B)>=1(根据定义，函数间隔是y(WTX+B)的最小值，而y是结果标签，只能取1或者-1）所以根据不等式的运算WTX+B要么大于等于1或者小于等于-1吧
作者回复: 没错，少了个负号，谢谢你指正🙏🏻小于-1意味着点到超平面的距离是大于1的
2018-02-08

1
陈邓~cd
“通过合理设置参数 w和 b ，可以使每个样本点到最优划分超平面的距离都不小于 -1，”最末尾，距离是不小于1？
作者回复: 是的，感谢细心指出
2018-06-25


Lin
感觉数学底子还不够，有点吃不太懂，得再学习学习...不过特别喜欢核函数这个东西，从低维升级到高维，解决线性不可分的问题。至少我先学习下这种解决问题的思路先，生活中也是，很多事情上升个维度思考，问题就很简单了。不过如果老师能再讲更细一些，比如画一些图之类的，然后简单推一下公式。如果还能加一个推导过程的视频就太好了，哈哈哈😂
作者回复: 加上推导的话想要简单就不容易啦
2018-01-19


听天由己
昨天还说要有抽象思维能力，今天的支持向量机就是直观的考验了。就像之前的同学说的，如果老师能够加上图其实就能够理解内涵了。从低维到高维，这就是空间构建的方法。支持向量是最优分界线上的边缘样本，而机是机器学习的算法，全称为 Support Vectors Machines。在知乎和其他资料上有较为清楚的解释。以下是链接，和我一样的不懂的同学请戳。 https://www.zhihu.com/question/21094489
2018-01-26
5
16
杨家荣
21天打卡行动 10/21 <<人工智能基础课12>>支持向量机回答老师问题:支持向量机主要用于解决分类任务，那么它能否推而广之，用于解决回归任务呢？在回归任务中，支持向量又应该如何表示呢？经查资料分享:支持向量回归叫SVR,obj=C(i=1∑l(ξ+ξ∗)+2C1ωTω）,支持向量机回归模型基于不同的损失函数产生了很多变种,个理解,SVR模型中要加损失厌恶的,找到一个分离超平面(超曲面)，使得期望风险最小。今日所学: 1,支持向量机的由来:1963 年，在前苏联莫斯科控制科学学院攻读统计学博士学位的弗拉基米尔·瓦普尼克和他的同事阿列克谢·切尔沃宁基斯共同提出了支持向量机算法; 2,支持向量机是一种二分类算法，通过在高维空间中构造超平面实现对样本的分类; 3,线性可分支持向量机就是在给定训练数据集的条件下，根据间隔最大化学习最优的划分超平面的过程 4,测试距离是个归一化的距离，因而被称为几何间隔,这个距离是非归一化的距离，被称为函数间隔 5,函数间隔和几何间隔的区别就在于未归一化和归一化的区别。 6,线性可分支持向量机是使硬间隔最大化的算法; 7,线性支持向量机的通用性体现在将原始的硬间隔最大化策略转变为软间隔最大化; 8,误分类引入惩罚函数, 9,不论是线性可分支持向量机还是线性支持向量机，都只能处理线性问题，对于非线性问题则无能为力; 10,将原始低维空间上的非线性问题转化为新的高维空间上的线性问题，这就是核技巧的基本思想; 11,核函数有两个特点。第一，其计算过程是在低维空间上完成的，因而避免了高维空间（可能是无穷维空间）中复杂的计算；第二，对于给定的核函数，高维空间 \mathcal{H} 和映射函数 \phi 的取法并不唯一。一方面，高维空间的取法可以不同；另一方面，即使在同一个空间上，映射函数也可以有所区别; 12,核函数的使用涉及一些复杂的数学问题，其结论是一般的核函数都是正定核函数; 13,在支持向量机的应用中，核函数的选择是一个核心问题,核函数的包含:线性核,多项式核,高斯核,拉普拉斯核,Sigmoid 核, 14,核函数可以将线性支持向量机扩展为非线性支持向量机 15,持向量机的一个重要性质是当训练完成后，最终模型只与支持向量有关，这也是“支持向量机”这个名称的来源。正如发明者瓦普尼克所言：支持向量机这个名字强调了这类算法的关键是如何根据支持向量构建出解，算法的复杂度也主要取决于支持向量的数目; 名词:法向量,截距,低维欧几里得空间,高维希尔伯特空间\mathcal{H},SMO 算法总结:这一张很抽象,抽象到一个不能用由生物分子合成的三维空间的人去想象那些在多维空间存在一个超平面把我们要分类的的事物,分出因果后,再通过核函数压缩直至降维; 老师讲的重点: 1,线性可分支持向量机通过硬间隔最大化求出划分超平面，解决线性分类问题； 2,线性支持向量机通过软间隔最大化求出划分超平面，解决线性分类问题； 3,非线性支持向量机利用核函数实现从低维原始空间到高维特征空间的转换，在高维空间上解决非线性分类问题； 4,支持向量机的学习是个凸二次规划问题，可以用 SMO 算法快速求解。
2019-12-28

3
MJ小朋友
老师讲的很不错，另外我又看了书上关于对偶拉格朗日的引入解参数w和b
2018-01-06

1
ifelse
学习打卡
2023-05-03归属地：浙江


Geek_HanX2
思路非常清楚！是一份很好的学习提纲！
2023-02-15归属地：湖南



收起评论