推荐系统三十六式
刑无刀
“贝壳找房”资深算法专家,8年推荐系统工程师
立即订阅
11383 人已学习
课程目录
已完结 39 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 用知识去对抗技术不平等
免费
第1章 概念篇 (3讲)
【概念篇】你真的需要个性化推荐系统吗?
【概念篇】个性化推荐系统那些绕不开的经典问题
【概念篇】这些你必须应该具备的思维模式
第2章 原理篇 (20讲)
【内容推荐】画鬼容易画人难:用户画像的“能”和“不能”
【内容推荐】从文本到用户画像有多远
【内容推荐】超越标签的内容推荐系统
【近邻推荐】人以群分,你是什么人就看到什么世界
【近邻推荐】解密“看了又看”和“买了又买”
【近邻推荐】协同过滤中的相似度计算方法有哪些
【矩阵分解】那些在Netflix Prize中大放异彩的推荐算法
【矩阵分解】Facebook是怎么为十亿人互相推荐好友的
【矩阵分解】如果关注排序效果,那么这个模型可以帮到你
【模型融合】经典模型融合办法:线性模型和树模型的组合拳
【模型融合】一网打尽协同过滤、矩阵分解和线性模型
【模型融合】深度和宽度兼具的融合模型 Wide and Deep
【MAB问题】简单却有效的Bandit算法
【MAB问题】结合上下文信息的Bandit算法
【MAB问题】如何将Bandit算法与协同过滤结合使用
【深度学习】深度学习在推荐系统中的应用有哪些?
【深度学习】用RNN构建个性化音乐播单
【其他应用算法】构建一个科学的排行榜体系
【其他应用算法】实用的加权采样算法
【其他应用算法】推荐候选池的去重策略
第3章 工程篇 (10讲)
【常见架构】典型的信息流架构是什么样的
【常见架构】Netflix个性化推荐架构
【常见架构】总览推荐架构和搜索、广告的关系
【关键模块】巧妇难为无米之炊:数据采集关键要素
【关键模块】让你的推荐系统反应更快:实时推荐
【关键模块】让数据驱动落地,你需要一个实验平台
【关键模块】 推荐系统服务化、存储选型及API设计
【效果保证】推荐系统的测试方法及常用指标介绍
【效果保证】道高一尺魔高一丈:推荐系统的攻防
【开源工具】和推荐系统有关的开源工具及框架介绍
第4章 产品篇 (3讲)
【产品篇】推荐系统在互联网产品商业链条中的地位
【产品篇】说说信息流的前世今生
【团队篇】组建推荐团队及工程师的学习路径
尾声与参考阅读 (2讲)
推荐系统的参考阅读
【尾声】遇“荐”之后,江湖再见
推荐系统三十六式
登录|注册

推荐系统的参考阅读

刑无刀 2018-05-28
专栏主体内容已经结束了,在专栏写作的过程中,我阅读了很多业界公开的资料,我觉得有必要整理出来,供想深入阅读的人继续去找虐。
整体来说,在选择参考文献时,我偏爱那些由公司发表的。因为推荐系统本质上还是一种非常依赖实践的算法应用方向,并且,这些商业公司论文中的技术内容也在他们实际的场景中经过了检验。
另外,更多的内容是来自我自己的大脑中,所以我在下面列出来的只是一部分,在经过反复删减之后,保留了这些,有中文有英文,一般来说英文居多。有较理论化的,如优化理论,更多的是较实践派,可以学完即用。这些资料分成这么几个类型。
论文:以论文形式发表的,期刊数据库中可以下载到。
网络文章:就是在网上自由流传的内容或者博客,为了方便阅读,我将它们保存为 PDF 格式。
演示文稿:就是作者曾公开演讲过的内容,相对来说不是那么严谨,但是更容易理解。
书:推荐系统相关的书较少,我在专栏中参考过的书只有一本(附件中不提供书的电子文档)。
以上的参考文献我按照章节顺序列在了下面,我还在后面附上一个推荐书单。你可以点击查看。

原理篇

1. 内容推荐

题目:Bag of Tricks for Efficient Text Classification

类型:论文

作者:Facebook

说明

Facebook 开源的文本处理工具 fastText 背后原理。可以训练词嵌入向量,文本多分类,效率和线性模型一样,效果和深度学习一样,值得拥有。
题目:The Learning Behind Gmail Priority Inbox

类型:论文

作者:Google

说明

介绍了一种基于文本和行为给用户建模的思路,是信息流推荐的早期探索,Gmail 智能邮箱背后的原理。
题目:Recommender Systems Handbook(第三章,第九章)

类型:书

作者:Francesco Ricci 等

说明

这本书收录了推荐系统很多经典论文,话题涵盖非常广,第三章专门讲内容推荐的基本原理,第九章是一个具体的基于内容推荐系统的案例。
题目:文本上的算法

类型:网络文章 (网络免费版,已有成书《文本上的算法: 深入浅出自然语言处理》,内容更丰富)

作者:路彦雄

说明

介绍了文本挖掘中常用的算法,及基础概念。内容涉及概率论,信息论,文本分类,聚类,深度学习,推荐系统等。
题目:LDA 数学八卦

类型:网络文章

作者:Rickjin(@靳志辉)

说明:

由浅入深地讲解 LDA 原理,对于实际 LDA 工具的使用有非常大的帮助。

2. 近邻推荐

题目:Amazon.com recommendations: item-to-item collaborative filtering

类型:论文

作者:Amazon

说明:

介绍 Amazon 的推荐系统原理,主要是介绍 Item-Based 协同过滤算法。
题目:Slope One Predictors for Online Rating-Based Collaborative Filtering

类型:论文

作者:Daniel Lemire 等

说明:

Slope One 算法。
题目:Item-Based Collaborative Filtering Recommendation Algorithms

类型:论文

作者:Badrul Sarwar 等

说明:

GroupLens 的研究团队对比了不同的 Item-to-Item 的推荐算法。
题目:Collaborative Recommendations Using Item-to-Item Similarity Mappings

类型:专利

作者:Amazon

说明:

是的,Amazon 申请了 Item-Based 算法的专利,所以如果在美上市企业,小心用这个算法。
题目:Recommender Systems Handbook(第 4 章)

类型:书

作者:Francesco Ricci 等

说明:

第四章综述性地讲了近邻推荐,也就是基础协同过滤算法。

3. 矩阵分解

题目:Matrix Factorization and Collaborative Filtering

类型:演示文稿

作者:Daryl Lim

说明:

从 PCA 这种传统的数据降维方法讲起,综述了矩阵分解和协同过滤算法。矩阵分解也是一种降维方法。
题目:Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model

类型:论文

作者:Yehuda Koren

说明:

把矩阵分解和近邻模型融合在一起。
题目:BPR- Bayesian Personalized Ranking from Implicit Feedback

类型:论文

作者:Steffen Rendle 等

说明:

更关注推荐结果的排序好坏,而不是评分预测精度,那么 BPR 模型可能是首选,本篇是出处。
题目:Collaborative Filtering for Implicit Feedback Datasets

类型:论文

作者:Yifan Hu 等

说明:

不同于通常矩阵分解处理的都是评分数据这样的显式反馈,本文介绍一种处理点击等隐式反馈数据的矩阵分解模型。
题目:Matrix Factorization Techniques For Recommender Systems

类型:论文

作者:Yehuda Koren 等

说明:

本文是大神 Yehuda Koren 对矩阵分解在推荐系统中的应用做的一个普及性介绍,值得一读。
题目:The BellKor Solution to the Netflix Grand Prize

类型:论文

作者:Yehuda Koren

说明:

也是一篇综述,或者说教程,针对 Netflix Prize 的。

4. 模型融合

题目:Adaptive Bound Optimization for Online Convex Optimization

类型:论文

作者:Google

说明:

FTRL 是 CTR 预估常用的优化算法,本文介绍 FTRL 算法原理。
题目:在线最优化求解

类型:网络文章

作者:冯扬

说明:

是对 FTRL 的通俗版解说。
题目:Ad Click Prediction: a View from the Trenches

类型:论文

作者:Google

说明:

FTRL 工程实现解读。
题目:Factorization Machines

类型:论文

作者:Steffen Rendle

说明:

提出 FM 模型的论文,FM 用于 CTR 预估。
题目:Field-aware Factorization Machines for CTR Prediction

类型:论文

作者:Yuchin Juan

说明:

FFM 模型,用于 CTR 预估。
题目:Practical Lessons from Predicting Clicks on Ads at Facebook

类型:论文

说明:

提出了 LR + GBDT 的 CTR 预估模型。
题目:Wide & Deep Learning for Recommender Systems

类型:论文

作者:Google

说明:

提出融合深度和宽度模型的Wide&Deep 模型,用于 CTR 预估。

5.Bandit 算法

题目:Introduction to Bandits- Algorithms and Theory Part 1- Bandits with small sets of actions

类型:演示文稿

作者:Jean-Yves Audibert 等

说明:

介绍 bandit 算法概念,理论和算法,这部分主要针对小的选项候选集。
题目:Introduction to Bandits- Algorithms and Theory Part 2- Bandits with large sets of actions

类型:演示文稿

作者:Jean-Yves Audibert 等

说明:

介绍 Bandit 算法概念,理论和算法,这部分主要针对较大的选项候选集。
题目:A Contextual-Bandit Approach to Personalized News Article Recommendation

类型:论文

作者:Yahoo

说明:

Linucb 的原始论文,考虑上下文的 Bandit 算法。
题目:Collaborative Filtering Bandits

类型:论文

作者:Shuai Li 等

说明:

Bandit 算法与协同过滤结合,提出 COFIBA 算法。

6. 深度学习

题目:Deep Neural Networks for YouTube Recommendations

类型:论文

作者:Google

说明:

介绍 YouTube 视频推荐系统在深度神经网络上的尝试。能从中看到 wide&deep 模型的影子。
题目:Efficient Estimation of Word Representations in Vector Space

类型:论文

作者:Google

说明:

Word2Vec 的作者在这篇文章中提出了一种词嵌入向量学习方法,也就是把开源工具包 Word2Vec 背后的模型详细介绍了一次。理论上很简单,更多是一些工程技巧的分享。Word2Vec 给推荐系统带来了一种新的隐因子向量学习方法,深陷评分预测泥潭的矩阵分解被开拓了思路。
题目:Item2Vec: Neural Item Embedding for Collaborative Filtering

类型:论文

作者:Microsoft

说明:

这篇就是借鉴了 word2vec 在语言建模中的思路,为推荐系统的行为建模,从中为物品学习嵌入向量。
题目:Learning Representations of Text using Neural Networks

类型:演示文稿

作者:Google

说明:

理解为 word2vec 作者写一个教程。
题目:Long Short-Term Memory

类型:论文

作者:Sepp Hochreiter 等

说明:

可以用来为序列建模的 LSTM,实际上在 1997 年就发表论文了,只是在十几年后才大火。
题目:An Empirical Exploration of Recurrent Network Architectures

类型:论文

作者:Google

说明:

Google 在 RNN 模型使用上的经验分享。
题目:Recurrent Neural Networks for Collaborative Filtering

类型:网络文章

作者:Erik Bernhardsson

说明:

这是 Erik Bernhardsson 在 Spotify 期间所做的尝试,用 RNN 自动构建音乐播单。Erik Bernhardsson 还有一项开源项目 Annoy,用于稠密向量的近邻搜索,在推荐系统中也用得较多。

7. 其他实用算法

题目:Detecting Near-Duplicates for Web Crawling

类型:论文

作者:Google

说明:

在这篇论文中提出了 simhash 算法,用于大规模网页去重。
题目:Weighted Random Sampling over Data Streams

类型:论文

作者:Pavlos S. Efraimidis

说明:

对流式数据的加权采样。
题目:Weighted Sampling Without Replacement from Data Streams

类型:论文:

作者:Vladimir Braverman 等

说明:

介绍了两种对流式数据的加权采样。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《推荐系统三十六式》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(11)

  • 风的轨迹
    有陈老师的筛选,我们就不用去花时间分辨好坏了,撸起袖子,准备啃啦😝
    2018-05-28
    5
  • 偲庞
    已经收藏,一周看一篇
    2018-05-28
    2
  • chaoYue()
    没想到还打包整理了 真是太棒了
    2018-06-01
    1
  • JOJO_北竞王
    太棒了,收藏慢慢啃😍
    2018-05-28
    1
  • 网名
    《信号与噪声》和《复杂》有很多个版本,老师推荐的是哪个作者的?

    作者回复: 作者分别是:纳特.西尔弗;梅拉尼·米歇尔。

    2019-10-20
  • FF
    一年以后又回来反复看~
    2019-09-09
  • 北冥Master
    1.打包文件下载不了了
    2.这么多内容全部看完搞懂加上实践需要多少功夫,作者真是牛人
    2019-07-17
  • 好想领只小柯基
    感谢老师,争取坚持考下来
    2018-12-24
  • 🐱您的好友William🐱
    感谢老师!
    2018-10-25
  • 谢谢
    2018-07-23
  • jifei
    值回票价了,哈哈
    2018-05-29
收起评论
11
返回
顶部