推荐系统三十六式
刑无刀
“贝壳找房”资深算法专家,8年推荐系统工程师
立即订阅
11378 人已学习
课程目录
已完结 39 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 用知识去对抗技术不平等
免费
第1章 概念篇 (3讲)
【概念篇】你真的需要个性化推荐系统吗?
【概念篇】个性化推荐系统那些绕不开的经典问题
【概念篇】这些你必须应该具备的思维模式
第2章 原理篇 (20讲)
【内容推荐】画鬼容易画人难:用户画像的“能”和“不能”
【内容推荐】从文本到用户画像有多远
【内容推荐】超越标签的内容推荐系统
【近邻推荐】人以群分,你是什么人就看到什么世界
【近邻推荐】解密“看了又看”和“买了又买”
【近邻推荐】协同过滤中的相似度计算方法有哪些
【矩阵分解】那些在Netflix Prize中大放异彩的推荐算法
【矩阵分解】Facebook是怎么为十亿人互相推荐好友的
【矩阵分解】如果关注排序效果,那么这个模型可以帮到你
【模型融合】经典模型融合办法:线性模型和树模型的组合拳
【模型融合】一网打尽协同过滤、矩阵分解和线性模型
【模型融合】深度和宽度兼具的融合模型 Wide and Deep
【MAB问题】简单却有效的Bandit算法
【MAB问题】结合上下文信息的Bandit算法
【MAB问题】如何将Bandit算法与协同过滤结合使用
【深度学习】深度学习在推荐系统中的应用有哪些?
【深度学习】用RNN构建个性化音乐播单
【其他应用算法】构建一个科学的排行榜体系
【其他应用算法】实用的加权采样算法
【其他应用算法】推荐候选池的去重策略
第3章 工程篇 (10讲)
【常见架构】典型的信息流架构是什么样的
【常见架构】Netflix个性化推荐架构
【常见架构】总览推荐架构和搜索、广告的关系
【关键模块】巧妇难为无米之炊:数据采集关键要素
【关键模块】让你的推荐系统反应更快:实时推荐
【关键模块】让数据驱动落地,你需要一个实验平台
【关键模块】 推荐系统服务化、存储选型及API设计
【效果保证】推荐系统的测试方法及常用指标介绍
【效果保证】道高一尺魔高一丈:推荐系统的攻防
【开源工具】和推荐系统有关的开源工具及框架介绍
第4章 产品篇 (3讲)
【产品篇】推荐系统在互联网产品商业链条中的地位
【产品篇】说说信息流的前世今生
【团队篇】组建推荐团队及工程师的学习路径
尾声与参考阅读 (2讲)
推荐系统的参考阅读
【尾声】遇“荐”之后,江湖再见
推荐系统三十六式
登录|注册

【模型融合】一网打尽协同过滤、矩阵分解和线性模型

刑无刀 2018-04-04
在上一篇文章中,我讲到了使用逻辑回归和梯度提升决策树组合的模型融合办法,用于 CTR 预估,我还满怀爱意地给这对组合起了个名字,叫做辑度组合,因为这对组合的确可以在很多地方帮到我们。
这对组合中,梯度提升决策树,也就是人们常说的 GBDT,所起的作用就是对原始的特征做各种有效的组合,一棵树一个叶子节点就是一种特征组合。
这大概就是逻辑回归的宿命吧,作为一个广义线性模型,在这个由非线性组成的世界里,唯有与各种特征组合办法精诚合作,才能活下去。

从特征组合说起

对逻辑回归最朴素的特征组合就是二阶笛卡尔乘积,但是你有没有想过这样暴力组合的问题所在。
两两组合导致特征维度灾难;
组合后的特征不见得都有效,事实上大部分可能无效;
组合后的特征样本非常稀疏,意思就是组合容易,但是并不能在样本中找到对应的组合出现,也就没办法在训练时更新参数。
如果把包含了特征两两组合的逻辑回归线性部分写出来,就是:
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《推荐系统三十六式》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(10)

  • qi
    感觉越来越不理解了,只怪自己太浅了,学识不够!
    2018-04-08
    6
  • 上个纪元的赵天师
    跪求老师出版实体书,感觉太有收获了

    作者回复: 会有的。

    2018-04-04
    2
  • mervynlh
    老师,现在项目中用的gbdt还是fm,两者比较呢
    2018-04-04
    2
  • 🐱您的好友William🐱
    DNN虽然可以自动做一些feature engineering的工作,但是对于大型系统来讲,还是规定一些feature,将这一部分单独拿出来做之后共享给其他组,之后各个组的工作才能对接,对接之后fine-tune的可解释性也强,如果大家都用DNN,那么就是一个黑盒子加一个黑盒子,有可能输入输出还不一样,到时候融合对接都成问题。所以DNN作为一个超级function approximator在工业界还是应该比较适用于小型独立的项目,项目组之前各个组之间feature的统一提取,或者是之后作为项目最后的决策层。
    2018-10-01
    1
  • 帅帅
    目前看起来,模型从简单到强大,一次是LR、GBDT+LR、GBDT+FM、DNN;
    那是不是直接上DNN最好呢?
    我的理解并不是,如果数据量很小使用DNN会容易过拟合;
    因此,简单的就选GBDT+LR、复杂的就选DNN;
    2018-09-25
    1
    1
  • 愚公移山
    老师,使用了两两特征组合后,逻辑回归从线性模型变成了非线性模型,因此模型表现的更好,可以这样理解吗?
    2018-04-05
    1
  • FF
    对于只留下用户 ID 和电影 ID的公式来说,那两个隐因子不是一般的向量?而是两个隐因子矩阵?
    2019-10-25
    1
  • shangqiu86
    老师,没有扩展开来,现在比较流行的是deepFM和deepFFM,把每个特征做embedding,老师,想问下FM有什么开源的python包吗?
    2019-04-30
  • 林彦
    感觉现在周围一般的机器学习实践GBDT用的更多一点。没和实践过推荐系统的人直接交流过,不知道因子分解机除了预测点击率外,对什么场景效果优于其他的特征组合方法。现在陈老师的理论讲得通俗易懂,不过自己编程和工程实践训练不够,实践还不知道如何入手。用哪套数据,哪套来源工具包,阅读哪套源码来学习实践还没有认知。

    作者回复: 如果找不到实践机会,就去kaggle刷比赛吧。如果你想实习,也可以给我发简历:chenkaijiang001@lianjia.com

    2018-04-05
  • Classtag
    后边会说到deepfm fnn 这些模型吗?

    作者回复: 会说到相似的模型。

    2018-04-04
收起评论
10
返回
顶部