13 | 经典模型融合办法：线性模型和树模型的组合拳

刑无刀



该思维导图由 AI 生成，仅供参考

推荐系统在技术实现上一般划分为三个阶段：挖掘、召回、排序。
为什么要融合？挖掘的工作就是对用户和物品做非常深入的结构化分析，庖丁解牛一样，各个角度各个层面的特征都被呈现出来，并且建好索引，供召回阶段使用，大部分挖掘工作都是离线进行的。
接下来就是召回，为什么会有召回？因为物品太多了，每次给一个用户计算推荐结果时，如果对全部物品挨个计算，那将是一场灾难，取而代之的是用一些手段从全量的物品中筛选出一部分比较靠谱的。
最后就是排序，针对筛选出的一部分靠谱的做一个统一的论资排辈，最后这个统一的排序就是今天要讲的主题：融合。
前面巴拉巴拉说了一段，画成图的话会好理解一些，示意图如下。
为什么要融合呢？这还得倒回去说一说召回是什么，以及这个阶段到底发生了什么？
在召回阶段，其实就是各种简单的、复杂的推荐算法，比如说基于内容的推荐，会产生一些推荐结果，比如基于物品的协同过滤会产生一些结果，矩阵分解会产生一些结果，等等。
总之，每种算法都会产生一批推荐结果，一般同时还附带给每个结果产生一个推荐分数，是各自算法给出来的。
于是问题就来了，这些不同算法产生的推荐分数，最后要一起排个先后，难道依据各自的分数吗？
这样是不行的，为什么？有几个原因：
有个算法可能只给出结果，不给分数，比如用决策树产生一些推荐结果；
每种算法给出结果时如果有分数，分数的范围不一定一样，所以不能互相比较，大家各自家庭背景不一样；
即使强行把所有分数都归一化，仍然不能互相比较，因为产生的机制不同，有的可能普遍偏高，有的可能普遍偏低。
既然来自各个地方的状元凑在一起，谁也不服谁，那只能再举行一次入学考试了，这个入学考试就是融合模型。也就是，不同算法只负责推举出候选结果，真正最终是否推荐给用户，由另一个统一的模型说了算，这个就叫做模型的融合。
模型融合的作用除了统一地方军阀，还有集中提升效果的作用。在机器学习中，有专门为融合而生的集成学习思想。
今天要讲的一个典型的模型融合方案是：逻辑回归和梯度提升决策树组合，我可以给它取个名字叫做“辑度组合”。
“辑度组合”原理在推荐系统的模型融合阶段，就要以产品目标为导向。举个简单的例子，信息流推荐，如果以提高 CTR 为目标，则融合模型就要把预估 CTR 作为本职工作，这个工作谁最能胜任呢，一直以来就是逻辑回归。
下面，我就来简单介绍一些常见的逻辑回归。
逻辑回归CTR 预估就是在推荐一个物品之前，预估一下用户点击它的概率有多大，再根据这个预估的点击率对物品排序输出。
逻辑回归常常被选来执行这个任务，它的输出值范围就是 0 到 1 之间，刚好满足点击率预估的输出，这是一个基础。因为逻辑回归是广义线性模型，相比于传统线性模型，在线性模型基础上增加了 sigmoid 函数。
下面就简单说说，逻辑回归如何做 CTR 预估？
我还是按照一直以来的套路来讲，先讲它在真正使用时怎么做的，再一步步往回看怎么得到所需要的条件。
在对召回阶段不同算法给出的候选物品计算 CTR 预估时，需要两个东西：
特征；
权重。
第一个是特征，就是用量化、向量的方式把一个用户和一个物品的成对组合表示出来。这里说的量化方式包括两种：实数和布尔。实数好理解，比如一个用户的年龄，一个用户平均在某个品类上每个月的开销，类似等等。
布尔，就是取值 0 或者 1，针对两种类别形式的，比如用户所在的省、市，当时是白天还是晚上，物品的每一个标签。
用户和每一个候选物品都组一下 CP，然后以这种特征化的方式表达出来，就可以计算了，否则类别形式的字段不能直接参与计算。
第二个是权重，每个特征都有一个权重，权重就是特征的话事权。在这场决定哪些物品最终有机会能走到前台的选秀过程中，用户和物品这对 CP 的所有特征都有投票权，只是同人不同命，每个特征的权重不一样，对最终计算 CTR 影响有大有小。
这个权重就很重要了，显然不能由愚蠢的人类来指定，需要模型自主从大量的历史数据中学习得到。
有了特征，它是一个向量，假如把它叫做 x；还有特征的权重，也是一个维度和特征一样的向量，假如叫做 w。
我们通过对 x 和 w 做点积计算，就得到了一个传统线性模型的输出，再用 sigmoid 函数对这个值做一个变换，就得到一个 0 到 1 之间的值，也就是预估的 CTR。
这里所说的 sigmoid 函数长这个样子：
σ(w×x)=1+e−w×x1​
这个函数曲线如图所示。
那看上去其实要做的就是两件事了：搞特征、学权重。
事实上的确如此，甚至前者占据更多的时间。逻辑回归特特征的取值都要求要在 0 到 1 之间。
甚至在一些领域，比如搜索广告，特征全都是布尔取值，只有出现和不出现两种，一旦遇到实数取值的特征，就将它划分成多个区间段，也变成了布尔取值。
除此之外，由于逻辑回归是广义线性模型，所谓广义就是因为加了 sigmoid 函数，所以很多非线性关系它无能为力。
比如说，有一天你发现“ID 为 233 的用户喜欢买各种钢笔”这个事实，它可以有两个特征组合出来，一个是“ID 为 233”，是一个布尔特征，另一个是“物品为钢笔”，也是一个布尔特征，显然构造一个新特征，叫做“ID 为 233 且物品为钢笔”。
只有两个原始特征都取值为 1 时，这个构造出的特征才会取值为 1，这种组合就是非线性，逻辑回归本身对两个原始特征仅仅是线性加权，并不能很好地刻画这个组合关系，非得组合才能助它一臂之力。
类似这样的工作，行话都叫做特征工程，刚才举例所说的特征组合叫做二阶组合，还有三阶组合，只要你高兴，也没人拦着你搞四阶组合。
但是要注意，特征组合的难点在于：组合数目非常庞大，而且并不是所有组合都有效，只有少数组合有效。
需要不断去弄脏双手，脚上沾泥地从数据中发现新的、有效的特征及特征组合。
特征工程 + 线性模型，是模型融合、CTR 预估等居家旅行必备。
权重那部分就是老生常谈了，简单说就是你准备好样本，喂给优化算法，优化算法再挤出新鲜的权重。
权重的学习主要看两个方面：损失函数的最小化，就是模型的偏差是否足够小；另一个就是模型的正则化，就是看模型的方差是否足够小；都是希望模型能够有足够的生命力，在实际生产线上最好能和实验阶段表现一样好。
除了要学习出偏差和方差都较小的模型，还需要能够给工程上留出很多余地，具体来说就是两点，一个是希望越多权重为 0 越好，权重为 0 称之为稀疏，可以减小很多计算复杂度，并且模型更简单，方差那部分会可控。
另一个是希望能够在线学习这些权重，用户源源不断贡献他们的行为，后台就会源源不断地更新权重，这样才能实现生命的大和谐。
要学习逻辑回归的权重，经典的方法如梯度下降一类，尤其是随机梯度下降，这在前面讲矩阵分解时已经提到过，可以实现在实时数据流情形下，更新逻辑回归的权重，每一个样本更新一次。
但是随机梯度下降常被人诟病的是，它什么也表现不好，很难得到稀疏的模型，效果收敛得也很慢。
也就是模型预测结果在通往真正想要到达的靶心路上看上去像是喝醉了酒一样，歪歪斜斜，像是很随机，但是趋势上还是在朝损失函数下降的方向。
后来 Google 在 2013 年 KDD 上发表了新的学习算法：FTRL，一种结合了 L1 正则和 L2 正则的在线优化算法，现在各家公司都采用了这个算法。
这里也顺便提一句，这个专栏重点讲解的是推荐系统落地会用到的东西，尽量通俗易懂。如果深入到机器学习和人工智能其他分支，可以参考极客时间上洪亮劼老师的“AI 技术内参”专栏。
对于我给你讲过的原理，希望可以让你有个直观的理解，在专栏结束后的图书出版计划中，我会在书中更加细致深入地讲原理，就有更多的代码和公式。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了推荐系统中经典模型融合的方法，重点讨论了逻辑回归在CTR预估中的应用。首先强调了模型融合的重要性，指出不同算法产生的推荐分数难以直接比较，因此需要模型融合来统一排序。然后详细介绍了逻辑回归在CTR预估中的应用，包括特征的构建和权重的学习过程。特别强调了特征工程的重要性，以及逻辑回归模型对非线性关系的处理能力。此外，还介绍了梯度提升决策树（GBDT）的原理和其在模型融合中的应用。文章还提到了将逻辑回归和GBDT结合起来用于模型融合的方法，以及在推荐系统中加入召回模型产生的分数的可能性。总的来说，本文深入浅出地介绍了推荐系统中模型融合的重要性和逻辑回归、GBDT在CTR预估中的应用，为读者提供了对推荐系统技术实现的深入了解。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《推荐系统三十六式》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(21)

最新
精选

科技狗
置顶
真的太好了！还有一些困惑希望老师解答一下，gbdt的ntrees都是提前定好的，n颗树为什么产生的是n个特征，为什么不乘以叶子节点数？n颗树的建树过程和做特征组合的过程是浑然一体的还是先建树再做特征？
2018-04-02

5
slvher
在Facebook那篇CTR论文中，GBDT起到特征变换器的作用，其每颗子树的叶子节点的输出把原始输入特征映射为以1-of-K方式编码的高阶组合特征（其中K为子树的叶子节点数）。也即，GBDT同时实现了高阶特征组合和特征值布尔化，故可提升LR模型效果。本文对这个关键细节的解释不够清楚，感兴趣的话，一定要读原论文。
作者回复: 你说得对。
2018-09-17

15
米乐乐果
楼上的几个朋友可以看看facebook那篇ctr预估的论文，更详细一点，是个不错的补充
作者回复: 对，那篇非常好！
2018-05-06

1
无隅
老师，请教一个问题，在本篇文章的图1里，就是排序，召回，融合示意图里，中间的挖掘算法部分，看到了svd，als，fm。我的理解是als是求解fm的一种手段，是fm求解的一部分，为何要独立出来呢？我发现不少资料都会单独把als放在一个挖掘算法中，是否是业内一种约定的写法？
作者回复: 你理解没错，als是求解svd及很多模型的一个方法。这里说的als通常值得als原始论文中那个模型，用于挖掘召回的，fm常用于CTR 预估。
2018-06-11


漂浮
请教老师个问题，有必要区分用户群进行不同推荐策略模型的开发吗？比如，按照地域，长三角用户执行某种推荐策略，珠三角用户执行某种推荐策略？或者按照用户，学生执行某种策略，非学生执行另外一种？是不是在推荐效果有些明显差异的情况下才需要，差异不大的话，不太需要精细化做？
2018-04-03

3
橡皮泥boy
老师，最终送入逻辑回归的特征，仅仅是经过GBDT决策的结果，还是会加上原始特征向量呢？为什么？
2018-04-18

2
Geek_86533a
请问老师，这里输入的特征和前面的矩阵分解、协同过滤有什么联系吗？
2019-08-18
1
1
Geek_b95d22
“除了要学习出偏差和方差都较小的模型，还需要能够给工程上留出很很多余地，具体来说就是两点，一个是希望越多权重为 0 越好，权重为 0 称之为稀疏，可以减小很多计算复杂度，并且模型更简单，方差那部分会可控。” 请问，如果很多的权重都是0，其实意味着这个特征对于结果是没有什么影响的，也就是这个特征其实是没啥意义的，特征工程的目的是生成很多特征，模型训练又希望大多数的特征权重为0，那这两个步骤似乎有些矛盾？还是说特征工程是尽可能多地寻找特征，而训练是把其中海量特征里最有用的特征（训练前未知）找出来？
2018-09-12

1
arfa
老师好，请问用户id和itemid是否作为特征，多谢
2018-09-11

1
明华
无刀老师，在实际情况下用户ID也需要作为一个特征吗?如果是，那这个特征学出来的权重的意义在哪?还有就是一个系统里如果用户ID用one hot编码那样特征不会很多吗?
2018-08-10

1

收起评论