AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

058 | 简单推荐模型之一:基于流行度的推荐模型

贝叶斯统计中的平滑方法
最大似然估计法
epsilon贪心算法
时间折扣
先验信息的使用
点击率的估计
无偏差数据的收集方法
位置因素影响
时间因素影响
高级流行度估计
流行度估计
如何更准确地确定先验概率中的数字
基于流行度的推荐模型
思考题
简单推荐模型
推荐系统

该思维导图由 AI 生成,仅供参考

今天,我们正式进入专栏的另一个比较大的模块,那就是推荐系统。之前我们详细且全面地介绍了搜索系统的各个组成部分。在接下来的几周时间里,我们一起来看推荐系统的技术要点又有哪些。
我们还是从简单推荐系统聊起,由易到难,逐步为你讲述一些经典的推荐模型。
推荐系统目前已经深入到了互联网的各类产品中。不管是到电子商务网站购物,还是到新闻阅读网站获取信息,甚至是在出行的时候希望听到不同的音乐,不同种类的推荐系统都在我们的生活中发挥着举足轻重的作用。
那么,搭建一个最简单的推荐系统,应该如何入手呢?今天我们就来聊一个最基本的推荐模型:基于流行度的推荐模型

最简单的流行度估计

什么是基于流行度(Popularity-based)?通俗地说,就是什么内容吸引用户,就给用户推荐什么内容。
这里面其实有一个隐含的假设,那就是物品本身的质量好坏和流行度有一定的正比关系。什么意思呢?就是说好的东西,关注的人自然就多,自然就会有更多的谈论。当然,这是一个主观的假设,并不是所有质量高的物品都会有很高的流行度。然而,在不需要过多其他信息和假设的情况下,流行度可以算是衡量物品质量好坏的一个最简单的测度。
那么,如果我们能够在每一个时间点上准确地估计到一个物品的流行度,就只需要按照流行度的数值从高到低排序显示所有的物品就可以了。
然而,这里牵涉到一个问题,那就是如何判断一个物品在任何时间点上的流行度呢?有两个重要的因素影响着物品流行度的估计,那就是时间和位置
我们先来说一下时间因素。很显然,用户访问每一个应用或者服务都有一定的规律,这种规律导致每一个应用的流量规律也不一样。比如,人们可能更倾向于在早上或者傍晚打开新闻网站,看一看一天都发生了什么事情。因此,任何文章投放到这两个时段自然就会有比较高的关注度。这并不代表这些文章就要好于其他的文章,可能仅仅是由于时间的关系。因此,我们在对流行度建模的时候就需要考虑时间的因素。
另外一个重要的因素是位置。这个“位置”并不是真正的地理位置,而是在一个服务或者网站的什么位置显示你的物品。因为用户心理对于不同位置的感受,在很多类型的服务中常常都有隐含的“位置偏差”(Position Bias)。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

基于流行度的推荐模型是推荐系统中的一个简单而重要的模型。本文从统计学的角度讲解了如何利用最大似然估计法对物品的点击率进行估计,并介绍了解决偏差问题的方法。文章提到了使用先验信息来平滑概率的估计,以及如何利用时间折扣来更准确地估计流行度。通过引入先验概率,可以避免估计中出现分子或分母为0的情况,从而提高估计的准确性。此外,文章还提到了一种特殊的EE算法——"epsilon贪心",通过将流量分成两部分来收集无偏差的数据。总的来说,基于流行度的推荐模型虽然简单,但在实际应用中需要考虑估计方法的局限性和偏差问题。读者可以通过本文了解基于流行度的推荐系统的基本原理,以及一些更高级的流行度估计方法。文章内容深入浅出,为读者提供了对推荐系统技术的全面了解和思考。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(6)

  • 最新
  • 精选
  • 隔壁的小王
    伯努利分布,俗称01分布,可以简单理解要么成功要么失败,如果成功概率是p,那么失败概率是1-p,分布率:P(n)=p^n*(1-p)^(1-n),同时伯努利分布满足如下公式:P(X=k)=Cn^k* p^k *(1-p)^(n-k),解释:如果一个实验满足伯努利分布,那么连续实验n次,其中k次结果是1(1代表上面说的概率为p的成功)的概率
    2019-12-17
    3
  • 离忧
    比如求今天某商品的点击率和曝光率,如果当前没有显示率和点击率,就用之前的显示率除以现在的曝光率,在乘以时间折扣。,如果现在有点击率和曝光率,用贝叶斯平滑(用历史数据做的先验概率,分子加上点击率,分母加上曝光率)。
    2018-03-02
    2
  • rushui
    很可能是这个时段总的用户量比较多,是不是应该比较少?
    2018-04-01
    1
  • 兔子ORZ
    超参的设置,在冷启动下,会考虑历史水平降权,但是对刚开始的更新很敏感。也是类似一个EE的取舍。另外如果资源允许,分批测试我觉得应该会更好。
    2018-04-10
  • 林彦
    或者是同一位置的次数之和
    2018-02-26
  • 林彦
    简单地猜想可以用整体的,或同一类别的,同一时间段的总显示次数和点击次数来作为先验概率中的数值。
    2018-02-26
收起评论
显示
设置
留言
6
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部