推荐系统三十六式
刑无刀
“贝壳找房”资深算法专家,8年推荐系统工程师
立即订阅
11433 人已学习
课程目录
已完结 39 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 用知识去对抗技术不平等
免费
第1章 概念篇 (3讲)
【概念篇】你真的需要个性化推荐系统吗?
【概念篇】个性化推荐系统那些绕不开的经典问题
【概念篇】这些你必须应该具备的思维模式
第2章 原理篇 (20讲)
【内容推荐】画鬼容易画人难:用户画像的“能”和“不能”
【内容推荐】从文本到用户画像有多远
【内容推荐】超越标签的内容推荐系统
【近邻推荐】人以群分,你是什么人就看到什么世界
【近邻推荐】解密“看了又看”和“买了又买”
【近邻推荐】协同过滤中的相似度计算方法有哪些
【矩阵分解】那些在Netflix Prize中大放异彩的推荐算法
【矩阵分解】Facebook是怎么为十亿人互相推荐好友的
【矩阵分解】如果关注排序效果,那么这个模型可以帮到你
【模型融合】经典模型融合办法:线性模型和树模型的组合拳
【模型融合】一网打尽协同过滤、矩阵分解和线性模型
【模型融合】深度和宽度兼具的融合模型 Wide and Deep
【MAB问题】简单却有效的Bandit算法
【MAB问题】结合上下文信息的Bandit算法
【MAB问题】如何将Bandit算法与协同过滤结合使用
【深度学习】深度学习在推荐系统中的应用有哪些?
【深度学习】用RNN构建个性化音乐播单
【其他应用算法】构建一个科学的排行榜体系
【其他应用算法】实用的加权采样算法
【其他应用算法】推荐候选池的去重策略
第3章 工程篇 (10讲)
【常见架构】典型的信息流架构是什么样的
【常见架构】Netflix个性化推荐架构
【常见架构】总览推荐架构和搜索、广告的关系
【关键模块】巧妇难为无米之炊:数据采集关键要素
【关键模块】让你的推荐系统反应更快:实时推荐
【关键模块】让数据驱动落地,你需要一个实验平台
【关键模块】 推荐系统服务化、存储选型及API设计
【效果保证】推荐系统的测试方法及常用指标介绍
【效果保证】道高一尺魔高一丈:推荐系统的攻防
【开源工具】和推荐系统有关的开源工具及框架介绍
第4章 产品篇 (3讲)
【产品篇】推荐系统在互联网产品商业链条中的地位
【产品篇】说说信息流的前世今生
【团队篇】组建推荐团队及工程师的学习路径
尾声与参考阅读 (2讲)
推荐系统的参考阅读
【尾声】遇“荐”之后,江湖再见
推荐系统三十六式
登录|注册

【其他应用算法】构建一个科学的排行榜体系

刑无刀 2018-04-20
前面的专栏文章中,我从最常见的内容推荐开始讲起,直到讲到了最复杂的深度学习在推荐系统中的应用原理,这些推荐算法都有一个特点:智能。
所谓智能,就是带有学习性质,能够和复杂的用户端形成互动,在互动过程中,算法参数得到更新和进化。
但是,智能这个高大上的词语,一定要以数据为前提的,我在专栏的第二篇文章中就和你透露过,推荐系统中有一个顽疾就是冷启动,冷启动就是没有数据,没有数据怎么和用户玩呢?
一个新用户来了,什么数据都还没有,推荐系统对其一无所知。这时候,你就需要一个排行榜了。

为什么要排行榜

排行榜,又名热门榜,听上去似乎是一个很常见的东西,原来它也算是推荐算法的一员?是的,它不但是,并且非常重要,而且其中也有不少的学问。
那么说排行榜到底有哪些用处呢?
排行榜可以作为解决新用户冷启动问题的推荐策略。这个不难理解,当一个新用户刚注册时,可以把最近产品中热门的物品推荐给他。
排行榜可以作为老用户的兴趣发现方式。即使是老用户,也可以在享受个性化推荐的同时去浏览热门的物品,从中看看哪些感兴趣,哪些不感兴趣,这些行为都是补充或者更新用户兴趣的数据来源。
排行榜本身就是一个降级的推荐系统。推荐系统本身是一个软件,因此也会有出现问题的时候,也会有推荐不出来的时候,这个时候考虑到服务的可用性,用排行榜作为一种兜底策略,可以避免推荐位开天窗。
今天,我就和你聊聊如何根据自己的产品特点构建一个合理的排行榜。

排行榜算法

最简单的排行榜,就是直接统计某种指标,按照大小去排序。在社交网站上,按照点赞数、转发数、评论数去排序,这是一种最常见、最朴素的排行榜。
类似的做法还有,在电商网站上按照销量去排序。
这样的做法也算是推荐算法?当然我确实很难说它不是,因为确实简单,容易上线运行,但我只能说这样做不靠谱,不靠谱的原因在于以下的几个问题。
非常容易被攻击,也就是被刷榜;
马太效应一直存在,除非强制替换,否则一些破了纪录的物品会一直占据在榜单中;
不能反映出排行榜随着时间的变化,这一点和马太效应有关。
既然朴素的排行榜有这些弊端,那么就针对他们来一一设计应对措施。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《推荐系统三十六式》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(6)

  • 林彦
    对于最后一个排行榜的水军刷榜问题我考虑到的因素有:
    1. 单位时间的有效单个物品评论数不能偏离整个网站物品新发布之后同期的评论数太多;
    2. 评分高峰期之后随时间的衰减幅度不会太快;
    3. 参与评分的用户之前长期评分的数量(单位时间多次评分只算1次)越多,对权重的影响越大;
    4. 像以前其他文章介绍的考虑评分和用户评分均值的差距;
    5. 考虑评分地址的IP地址,其他设备标识是否重复,是否有有效身份标识,是否有有效付费(这部分用户如果比例太低会被作弊者利用)
    2018-04-21
    14
  • 🐱您的好友William🐱
    防止水军刷榜,就要观察水军的特征,其实不难发现,水军都是新注册帐号且只有一个评价或者两个评价,所以在贝叶斯平均的公式中把R换成用户加权平均,就是之前评分评得越多的用户说话越有分量,说话越少的用户意见越没有参考价值~
    这个对于水军有效,但是对于脑残粉是无效的,那么对于脑残粉,老师在“看了又看”那篇博客中说物品中心化可以实现,但是这个是针对于计算关系矩阵的。

    (以下我个人的想法,轻喷),其实正常没有脑残粉的评分,都是符合某些特定的分布,这个是可以人工专家engineer出来的,只要评分足够多,那么基本上都是会符合这些特定分布的。所以我们可以使用Wasserstein metric或者KL-divergence,从用户评分得出一个分布和我们专家得出来的分布进行比对,两个分布差距越大就说明这个评分越不正常。(就比如现实中评分3分左右的电影的分布很有可能就像高斯分布一样,那么有一个平均分为3分的电影,5分评分人超级多,1分的也超级多,明显就不正常,脑残粉刷5分,吃瓜群众1分给烂片这样,两个分布的“距离”就会很大。)。把这个“距离”也加到最终评分里面去作为权重就好了!
    2018-10-09
    5
  • shangqiu86
    这章都可以应用到我目前的推荐项目中去,目前负责三个坑位,一个是问答,一个是ugc推荐,一个是资讯推荐,谢谢老师的分享,学习了
    2019-05-05
  • 上个纪元的赵天师
    反复看了几遍,我觉得每一章都非常有启发

    作者回复: 那就多多分享。

    2019-03-20
  • 刘大猫
    干活满满的一章 衰减这个东西在确定种子集的时候也能用
    2018-04-20
  • JOJOe
    请问有无源码进行学习呢?
    2018-04-20
收起评论
6
返回
顶部