053 | 机器学习排序算法经典模型：GBDT

洪亮劼



该思维导图由 AI 生成，仅供参考

这周我们讨论机器学习排序算法中几个经典的模型，周一分享了配对法排序中的一个经典算法，即排序支持向量机（RankSVM），这个算法的核心思想是把支持向量机应用到有序数据中，试图对数据间的顺序进行直接建模。
今天，我们来聊一聊利用机器学习进行排序的一个重要算法：“梯度增强决策树”（Gradient Boosted Decision Tree）。长期以来，包括雅虎在内的很多商业搜索引擎都利用这种算法作为排序算法。
梯度增强决策树的历史梯度回归决策树的思想来源于两个地方。首先是“增强算法”（Boosting），一种试图用弱学习器提升为强学习器的算法。这种算法中比较成熟的、有代表性的算法是由罗伯特⋅施派尔（Robert Schapire）和约阿夫⋅福伦德（Yoav Freund）所提出的 AdaBoost 算法[1]。因为这个算法两人于 2003 年获得理论计算机界的重要奖项“哥德尔奖”（Gödel Prize）。罗伯特之前在普林斯顿大学任计算机系教授，目前在微软研究院的纽约实验室工作。约阿夫一直在加州大学圣地亚哥分校任计算机系教授。
增强算法的工作机制都比较类似，那就是先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器。如此重复进行，直到基学习器数目达到事先制定的值，最终将所有的基学习器进行加权结合。如果你对“偏差 - 方差分解”（Bias-Variance Decomposition）有耳闻的话，那么，Boosting 主要关注降低偏差。在实际效果中，增强算法往往能基于泛化性能相当弱的学习器构建出很强的集成结果。
AdaBoost 提出后不久，机器学习学者和统计学家杰罗姆⋅弗赖德曼（Jerome H. Friedman）等人发表了一篇论文[2]，从“统计视角”解释 AdaBoost 实质上是基于加性模型（Additive Model）以类似牛顿迭代法来优化指数损失函数（Loss Function）。于是受此启发，杰米姆提出了“梯度增强”（Gradient Boosting）的想法。这也就是梯度回归决策树思想来源的第二个地方，也是直接根源。如果你希望对“梯度增强”有进一步的了解，可以见参考文献[3]。
最早把“梯度增强”的想法应用到搜索中，是雅虎研究院的学者于 2007 年左右提出的[4]&[5]。之后，Facebook 把梯度增强决策树应用于新闻推荐中[6]。
梯度增强的思想核心我们刚才简单讲了增强算法的思路，那么要想理解梯度增强决策树，就必须理解梯度增强的想法。
梯度增强首先还是增强算法的一个扩展，也是希望能用一系列的弱学习器来达到一个强学习器的效果，从而逼近目标变量的值，也就是我们常说的标签值。而根据加性模型的假设，这种逼近效果是这些弱学习器的一个加权平均。也就是说，最终的预测效果，是所有单个弱学习器的一个平均效果，只不过这个平均不是简单的平均，而是一个加权的效果。
那么如何来构造这些弱学习器和加权平均的权重呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

梯度增强决策树算法是一种在机器学习排序问题中广泛应用的模型，其核心思想是利用增强算法和梯度下降来构建弱学习器的加权平均，以逼近目标变量的值。该算法利用决策树作为弱学习器，通过迭代的方式不断拟合梯度，最终获得强学习器的效果。在搜索领域的应用中，该算法取得了显著的效果，尤其在训练排序算法方面表现突出。梯度增强决策树能够有效提升排序效果，成为一种普适的机器学习排序算法。其成功得益于增强算法和决策树堆积的思想，这两个思路在机器学习中被证实有效。因此，梯度增强决策树算法在排序问题中具有重要意义，值得进一步深入研究和应用。该算法的历史源于增强算法和梯度下降的理论基础，以及对梯度下降在优化目标函数中的应用。文章还提到了一些相关的参考文献，为读者提供了进一步深入研究的方向。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

黄德平
残差网络估计是受到GBDT的启发
2018-12-13


范深
神经网络与增强梯度最简单的结合，就是把多个神经网络作为弱分类器串联起来？我相信还有更妙的结合点：）
2018-01-17



收起评论