14 | 一网打尽协同过滤、矩阵分解和线性模型

刑无刀



该思维导图由 AI 生成，仅供参考

在上一篇文章中，我讲到了使用逻辑回归和梯度提升决策树组合的模型融合办法，用于 CTR 预估，我还满怀爱意地给这对组合起了个名字，叫做辑度组合，因为这对组合的确可以在很多地方帮到我们。
这对组合中，梯度提升决策树，也就是人们常说的 GBDT，所起的作用就是对原始的特征做各种有效的组合，一棵树一个叶子节点就是一种特征组合。
这大概就是逻辑回归的宿命吧，作为一个广义线性模型，在这个由非线性组成的世界里，唯有与各种特征组合办法精诚合作，才能活下去。
从特征组合说起对逻辑回归最朴素的特征组合就是二阶笛卡尔乘积，但是你有没有想过这样暴力组合的问题所在。
两两组合导致特征维度灾难；
组合后的特征不见得都有效，事实上大部分可能无效；
组合后的特征样本非常稀疏，意思就是组合容易，但是并不能在样本中找到对应的组合出现，也就没办法在训练时更新参数。
如果把包含了特征两两组合的逻辑回归线性部分写出来，就是：
y^​=ω0​+i=1∑n​ωi​xi​+i=1∑n​j=i+1∑n​ωij​xi​xj​

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

因子分解机（FM）模型在CTR预估中的应用因子分解机（FM）模型在CTR预估中具有重要应用价值。本文首先指出了逻辑回归在特征组合时存在的问题，以及二阶笛卡尔乘积的局限性。随后详细介绍了FM模型的原理，通过解耦特征间的权重学习，利用隐因子向量进行特征组合，从而解决了逻辑回归中样本稀疏的问题。文章还阐述了FM模型的训练过程和损失函数，以及在预测阶段对二阶特征组合部分的实际计算方法。此外，文章还提到了FM模型的优势和应用场景，强调了其在CTR预估中的重要性。另外，文章还介绍了FM模型的变形，包括带有偏置信息的SVD、SVD++和time-SVD等模型。此外，作者还提出了Field-aware Factorization Machines（FFM）模型，通过认为特征和特征类型之间存在关系，对FM模型进行了改进。FFM模型也常用来做CTR预估。最后，文章总结了因子分解机的重要性，并鼓励读者分享其所用过的特征组合办法。通过本文的阐述，读者可以快速了解FM模型在CTR预估中的技术特点和应用价值，以及FM模型的变形和改进模型FFM的应用。文章内容丰富，涵盖了CTR预估模型的重要内容，对于对CTR预估感兴趣的读者具有很高的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《推荐系统三十六式》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(11)

最新
精选

林彦
感觉现在周围一般的机器学习实践GBDT用的更多一点。没和实践过推荐系统的人直接交流过，不知道因子分解机除了预测点击率外，对什么场景效果优于其他的特征组合方法。现在陈老师的理论讲得通俗易懂，不过自己编程和工程实践训练不够，实践还不知道如何入手。用哪套数据，哪套来源工具包，阅读哪套源码来学习实践还没有认知。
作者回复: 如果找不到实践机会，就去kaggle刷比赛吧。如果你想实习，也可以给我发简历：chenkaijiang001@lianjia.com
2018-04-05

3
上个纪元的赵天师
跪求老师出版实体书，感觉太有收获了
作者回复: 会有的。
2018-04-04
3
2
Duo An
后边会说到deepfm fnn 这些模型吗？
作者回复: 会说到相似的模型。
2018-04-04


qi
感觉越来越不理解了，只怪自己太浅了，学识不够！
2018-04-08

13
mervynlh
老师，现在项目中用的gbdt还是fm,两者比较呢
2018-04-04

3
🐱您的好友William🐱
DNN虽然可以自动做一些feature engineering的工作，但是对于大型系统来讲，还是规定一些feature，将这一部分单独拿出来做之后共享给其他组，之后各个组的工作才能对接，对接之后fine-tune的可解释性也强，如果大家都用DNN，那么就是一个黑盒子加一个黑盒子，有可能输入输出还不一样，到时候融合对接都成问题。所以DNN作为一个超级function approximator在工业界还是应该比较适用于小型独立的项目，项目组之前各个组之间feature的统一提取，或者是之后作为项目最后的决策层。
2018-10-01

2
愚公移山
老师，使用了两两特征组合后，逻辑回归从线性模型变成了非线性模型，因此模型表现的更好，可以这样理解吗？
2018-04-05
1
2
帅帅
目前看起来，模型从简单到强大，一次是LR、GBDT+LR、GBDT+FM、DNN；那是不是直接上DNN最好呢？我的理解并不是，如果数据量很小使用DNN会容易过拟合；因此，简单的就选GBDT+LR、复杂的就选DNN；
2018-09-25
2
1
sheny
3 预测阶段的第一个公式推导最后应该是<Vi,Vi>xi*xi 不是<Vi,Vj>xi*xi
2020-06-04


FF
对于只留下用户 ID 和电影 ID的公式来说，那两个隐因子不是一般的向量？而是两个隐因子矩阵？
2019-10-25
1


收起评论