• Maiza
    2018-01-06
    老师 每次看到公式的地方就跪了...
    能麻烦给每个公式标明下出处,方便理解吗?
    老师认为理所当然的事情对小白来说就是天书啊 。。。。。😂😂😂

    作者回复: 公式的出处都是前辈们的推导啊……后面我会再过一遍公式,看看有没有符号解释不清的地方

    
     12
  • wdf
    2018-07-07
    为什么说ringe对应的是正态,lasso是拉普拉斯分布

    作者回复: 这是从贝叶斯角度出发的。假定参数本身已经服从正态/拉普拉斯分布,那么在高斯噪声之下,用参数的似然概率乘以先验就可以得到后验。对后验概率取对数得到的结果和正则化的损失函数形式一致,所以对后验概率的最大化就是对正则化损失函数的最小化。
    这相当于先假定参数符合特定条件,在此基础上再来计算最优参数。

    
     2
  • Haley_Hu
    2018-02-24
    2范数是不是就指L2正则 1范数就指L1正则

    作者回复: 范数本身是个数学指标,用这个指标做正则化就是对应的正则化方法

    
     2
  • 秦龙君
    2017-12-29
    学习了。
    
     2
  • haiker
    2018-10-14
    引入抑制过拟合现象,以训练误差的上升为代价,换取测试误差的下降,训练误差和测试误差有时候是不是鱼和熊掌,不可兼得,训练误差太低可能就过拟合了,在测试集上效果就不好了。有些学者建议在训练集上训练的时候要等到稍微过拟合了再结束,因为提前结束的话,可能模型还没训练到位。

    作者回复: 抑制过拟合几乎成为机器学习的核心问题了。

    
     1
  • Geek_59
    2019-12-24
    岭回归和 LASSO 回归分别通过引入二范数惩罚项和一范数惩罚项抑制过拟合。
    
    
  • w 🍍
    2019-08-11
    应该是”线性回归得到的就是 n+1 维空间上的一个超平面,对应一个维度等于 n 的线性子空间。“吧,还是我理解不对...

    作者回复: 是的,感谢指出,一不小心就出来一个bug。

    
    
  • 全全
    2019-03-07
    天一老师,讲的真好!有些内容您可以加上一些图片帮助理解,比如讲特征值分解那里,变换是由矩阵引起的,特征值和特征向量,您用文字解释的非常明白,我又看维基百科里给了一个动图,觉得豁然开朗。还有这次课里那几个范数应用在回归正则化里,也有图片可以帮助理解。有时候学习这个东西,在我完全不懂的时候,解释的多明白都是天书的感觉。只有懂了,再看的时候就有共鸣,看出您文字里背后的意思。这是我的体会。
    那么天一老师,我的困惑在于,用1范数可以做稀疏,同样是有棱有角的无穷范数,是不是也可以作为正则化的约束条件来实现稀疏呢?
    可以么?用无穷范数来实现稀疏?直观上看是可以的,如果不可以是因为什么呢?希望老师指点
    另外如果可以的话,那无穷范数实现的稀疏和1范数所实现的稀疏比较而言,有什么优缺点呢?
    跟您学,有收获,真心求教!
    展开

    作者回复: 谢谢你的建议,因为这个专栏在定位时是音频为主,所以我在写稿时特意避免了图片的使用,现在看来是个败笔。
    无穷范数的定义式涉及极限,不方便写,你找本书看一看。无穷范数最后的结果就是这个向量里最大的元素。不管1范数还是2范数做正则化项,都是所有元素共同来决定范数取值,损失函数一变化,所有的元素都在变化。结果在无穷范数这里,变成最大的家伙一言堂了。从表达式上说,用无穷范数做正则化相当于求无穷范数的无穷次方,这个数要么等于0要么等于无穷大,也起不到正则化的作用。

    
    
  • Snail@AI_ML
    2019-01-18
    和学习的课程相互印证之后,发现居然更糊涂了:这是上面的章节没有的现象,总结来说,本文更详细并做了一些拓展,比如线性回归的来历,正则化的应用等,课程只是告诉我们正则化的特点和应用,简单粗暴呢
    
    
  • 历尽千帆
    2018-12-27
    老师~我不太明白,为什么说LASSO回归的特点在于稀疏性的引入?我不太懂这里说的稀疏性是指的什么~
    
    
  • 历尽千帆
    2018-12-26
    您好,我没有明白,为什么引入常量 x0=1,后面的y=wx才成立呢?
     1
    
  • 十八哥
    2018-12-01
    假定给出美女的标准,数据化。问题提出如何确定美女在泳池中出现的概率?模型输入,地区、区域房价、游泳单价、时间维度、年龄参数等。此时我们可以用线性回归找到这些模型中那个变量是最优的,并且能给出排序。我的理解对吗?

    作者回复: 实际上线性回归只能给出每个属性的权重,当然可以人为地认定权重越大,属性越优。

    
    
  • haiker
    2018-10-14
    LASSO 回归感觉也是在做特征降维,会不会和做完特征降维之后再做线性回归效果差不多呢?

    作者回复: LASSO的降维应该说是无心插柳,不是以降维为目的,但起到降维的效果。它和PCA这种直接降维的效果还是有区别的。

    
    
  • haiker
    2018-10-14
    季霍诺夫矩阵是超参数要提前指定,还是参数,在训练过程中获得呢?

    作者回复: 超参数,需要提前确定,在不同的正则化超参数下计算出的模型参数也是不一样的。

    
    
  • Howard.Wundt
    2018-09-22
    老师的数学公式是用什么工具写的,可以具体分享一下吗?

    作者回复: Latex,学术写作排版神器

    
    
  • wdf
    2018-07-07
    请问老师,如果是多元回归,假定噪声服从高斯分布极大似然估计和最小二乘法等价吗

    作者回复: 是的,文中考虑的就是多元的情形。

    
    
  • duchao_hit
    2018-05-25
    老师,对误差的概率就等于在参数w下样本的条件概率觉得不是很理解

    作者回复: 这个表达式写的有问题,等式左侧应该是在给定参数w和输入x的条件下,输出y的概率,也就是p(y | x, w)

    
    
  • duchao_hit
    2018-05-25
    老师,关于样本x的概率就等于误差的概率不是很理解。疑惑是y-wx=e,只能说p(y-wx)=p(e),但不能说p(y-wx)=p(x|w)吧?
    
    
  • 刘滨
    2018-01-27
    老师,请问最小二乘法跟梯度下降方法有什么区别?这里可以用梯度下降方法吗

    作者回复: 最小二乘定义了最优化的目标函数,梯度下降要找到最优化问题的最优解,两者大致是目的和手段的关系。
    最小二乘是有解析解的,如果解析解难以求解,就可以用梯度下降这些数值方法。

    
    
  • wolfog
    2018-01-17
    天一老师有段,开头是“LASSO回归的全称最小绝对缩减和选择算子”这一段的倒数第二行的2泛数项和一泛数项写法是否应该统一,要么数字都在右下角,要么都在右上角。今天后面这个惩罚项目不太了解为什么惩罚项目一加,就可以降低了他的过拟合。

    作者回复: 感谢你的细心,但两个标号意思是不一样的哈:下标代表的是范数维度,上标表示的是平方操作,意思是2范数的平方。所以在上标下面再加一个表示2范数的下标2,是标准的写法。
    所谓过拟合呢,就是用来描述模型的参数数目太多了,正则化项的作用就是通过不同范数控制参数的取值大小,如果把某些参数抑制为0,这个参数就消失了,也就起到了通过减少参数数目抑制过拟合的作用。

    
    
我们在线,来聊聊吧