作者回复: 公式的出处都是前辈们的推导啊……后面我会再过一遍公式,看看有没有符号解释不清的地方
作者回复: 这是从贝叶斯角度出发的。假定参数本身已经服从正态/拉普拉斯分布,那么在高斯噪声之下,用参数的似然概率乘以先验就可以得到后验。对后验概率取对数得到的结果和正则化的损失函数形式一致,所以对后验概率的最大化就是对正则化损失函数的最小化。
这相当于先假定参数符合特定条件,在此基础上再来计算最优参数。
作者回复: 范数本身是个数学指标,用这个指标做正则化就是对应的正则化方法
作者回复: 抑制过拟合几乎成为机器学习的核心问题了。
作者回复: 是的,感谢指出,一不小心就出来一个bug。
作者回复: 谢谢你的建议,因为这个专栏在定位时是音频为主,所以我在写稿时特意避免了图片的使用,现在看来是个败笔。
无穷范数的定义式涉及极限,不方便写,你找本书看一看。无穷范数最后的结果就是这个向量里最大的元素。不管1范数还是2范数做正则化项,都是所有元素共同来决定范数取值,损失函数一变化,所有的元素都在变化。结果在无穷范数这里,变成最大的家伙一言堂了。从表达式上说,用无穷范数做正则化相当于求无穷范数的无穷次方,这个数要么等于0要么等于无穷大,也起不到正则化的作用。
作者回复: 实际上线性回归只能给出每个属性的权重,当然可以人为地认定权重越大,属性越优。
作者回复: LASSO的降维应该说是无心插柳,不是以降维为目的,但起到降维的效果。它和PCA这种直接降维的效果还是有区别的。
作者回复: 超参数,需要提前确定,在不同的正则化超参数下计算出的模型参数也是不一样的。
作者回复: Latex,学术写作排版神器
作者回复: 是的,文中考虑的就是多元的情形。
作者回复: 这个表达式写的有问题,等式左侧应该是在给定参数w和输入x的条件下,输出y的概率,也就是p(y | x, w)
作者回复: 最小二乘定义了最优化的目标函数,梯度下降要找到最优化问题的最优解,两者大致是目的和手段的关系。
最小二乘是有解析解的,如果解析解难以求解,就可以用梯度下降这些数值方法。
作者回复: 感谢你的细心,但两个标号意思是不一样的哈:下标代表的是范数维度,上标表示的是平方操作,意思是2范数的平方。所以在上标下面再加一个表示2范数的下标2,是标准的写法。
所谓过拟合呢,就是用来描述模型的参数数目太多了,正则化项的作用就是通过不同范数控制参数的取值大小,如果把某些参数抑制为0,这个参数就消失了,也就起到了通过减少参数数目抑制过拟合的作用。