• 小博
    2018-08-28
    老师,请问梯度提升这里的提升具体体现在哪里呢?只是残差的拟合吗?还有梯度提升是在函数空间的优化和梯度下降是在参数空间的优化这两个说法怎么理解呢

    作者回复: 体现在通过残差拟合的手段将多个弱学习器组合成强学习器,降低偏差和方差。
    两个的作用域不同。梯度下降是针对单个模型的参数优化,找到最优的一组参数;梯度提升是用多个模型的组合来逼近问题的解,每个模型其实都是一个函数。

    
     2
  • Ophui
    2018-08-04
    在训练数据中想刻意的增加某些特征的权重,有什么办法么?

    作者回复: 机器学习的目的其实就是确定哪些特征对输出的影响更大,也就是具有更大的权重,这在线性模型里体现的最为直观。增加权重说明你已经认定这些特征更重要,那就不需要再训练了。
    如果非要做的话,在线性模型中可以给属性额外乘以一个放大系数,在决策树里可以放大属性的信息增益,在随机森林里可以给每棵树都选定这个属性。使用的模型不同,方法也不一样。

    
     1
  • 梦帝
    2018-12-31
    老师,对于分歧分解还有一些疑问,不知道对不对。如果我理解正确的话,和而不同是只每个基分类器需要有不同的结果,但同样也要使得和真实值比较接近。举例来说,假设二分类问题有11个基分类器,如果按照majority voting来得到集成结果的话,在结果为正确的情况下(Y =1),最大化分歧就是11个基分类器最好是有6个是1,或者6个是0;而最小化E(均方误差)也就是11个基分类器都是1;所以这其实也只是bias variance trade off,并不一定是基分类器之间越independent越好对不对?谢谢老师啦
    
    
  • hayley
    2018-10-08
    什么情况下选RF,什么情况下选GBDT呢?

    作者回复: 两种都是比较通用的方法,在具体问题上可以择优使用,看看哪个效果好。

    
    
  • 林彦
    2018-08-23
    Practical Lessons from Predicting Clicks on Ads at Facebook

    作者回复: 输入LR的特征维度是所有树的叶子节点的组合,也就是14个特征。树的作用是onehot编码,把实值的特征向量变成二值类别向量。文中的解释是这样的转化本质上是定义了一组规则,线性模型是在给每一棵树里的每个叶子节点所表示的规则生成权重。

    
    
  • 林彦
    2018-08-22
    王老师,我对于Facebook 在其广告系统中使用的GBDT+LR的融合方法在LR这一步的输入有些困惑。

    传统的LR模型,输入就是权重与特征值相乘求和再放入sigmoid函数中。

    GBDT在Facebook广告系统预测点击的那篇论文中,我的理解是这样的。假设有5棵树,每棵树的节点数可能是不同的(根据文章中的一个简单例子)。假设我们5棵树的叶子节点数分别是2,3,2,4,3,合计有14个叶子节点。其中一个训练样本在5棵树的输出结果是[0, 1],[0, 1, 0],[1, 0],[0, 0, 1, 0],[0, 0, 1]。把树的输出结果作为LR的输入时是相当于每个样本看成有14个特征,每个特征只有0和1两种取值,然后求这14个特征的权重令最后的LR模型的预测输出和训练样本的真实结果值,取值为0,1(代表点击或未点击)的误差最小化吗?或者LR模型的输入特征是5个,对应5棵GBDT树的输出结果,如果这样,5棵树的叶子节点数不同时,权重如果只是一个标量,貌似没法求和得到一个标量值。

    谢谢。
    展开

    作者回复: 这篇论文的题目是什么?

    
    
  • 林彦
    2018-08-21
    性能的提高可以通过把数据映射到高维,层次化,或者老师讲授的局部化等方法来实现。这些数学变换未必都有直观可解释的属性,属性组合及划分或变换方式对应。

    我们的理解程度和变换对于复杂问题的解决能力在不少场景下就是不易同时满足的,除非我们对一些事物的认知提高到一个更宏观或微观的新层次。
    
    
我们在线,来聊聊吧