作者回复: 核的带宽越小意味着每个样本点影响的范围就越小,新样本就越发取决于离它最近的训练数据。当带宽趋近于0时,核函数就变成1近邻了。
调小带宽肯定有利于降低训练误差,但也会增加过拟合的风险。如何调整这个超参数恐怕也没有一定之规,只能通过交叉验证找到训练误差和泛化误差的折中的最优值。
作者回复: 这个恐怕没什么关系,因为只要使用计算机就要用二进制。即使不是二进制也会是四进制六进制八进制这些离散的表示。
作者回复: 感谢你的仔细指出:
1. 应该是大于号,支持向量机的定义说的就是这个事情,这是不该有的错误。
2. 根据1可以得到,等式右侧那一项应该是小于0的,这是因为拉格朗日的形式一般是让约束条件满足小于0。
3. 这里的约束就是文中第一个表达式的约束,只有服从这个约束,拉格朗日才有最小值。
4. 这个过程是由数学运算和KKT保证的。它的目的是为了简化运算。直接用二次规划求原问题很复杂,运算复杂度取决于样本数目。引入拉格朗日这一套之后,求w变成了求alpha,而alpha中的非零项又不多,这样就可以简化运算。对偶问题的作用在吴恩达cs229支持向量机note的第13页有说明,你可以看看。
5. 深度学习中的优化 这一篇。
作者回复: 感谢认真阅读。你说的没错,文中前面也提到了KKT。但是因为没有做详细的展开,所以这里一概地把它归结到对偶性上,便显得突兀。你的留言对这个问题做了更清楚的说明,希望其他同学也能看到。
作者回复: 感谢你的分享,能带给读者这样的启示是我最想看到的。
作者回复: 不是误分类点,而是与最优边界生成无关的数据点。边界只取决于距离最近的那几个异类点,离边界较远的都是非支持向量。
作者回复: 对偶问题的作用在吴恩达cs229支持向量机note的第13页有说明,你可以看看。求解对偶问题相当于求解拉格朗日乘子alpha,而alpha只在支持向量上有非零取值。同时对偶问题中的内积运算可以用核技巧来处理,这些都可以简化运算。