AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

017 | The Web 2018论文精读:如何改进经典的推荐算法BPR?

C2中采样数据大于C1
C3中采样数据大于C2
但减少了训练时间
模型效果比传统BPR好60%左右
不同比例对三种集合进行采样
C1、C2、C3
天猫数据集上效果略有下降
贝贝网上提升算法精确度
150多万次浏览
46万次购买
3万多商品
3万用户
4600万次浏览
260万次购买
12万商品
16万用户
提升算法整体训练效果
利用更多用户浏览信息
可能影响效果
无必要
正例排在负例之前
学习相对顺序
用户数据集合划分
不从全局中选取负样本
大于99%的稀疏度
天猫
母婴产品“贝贝网”
电子商务应用的负样本采样方法
全局均匀采样
需要有效建模
用户行为表达喜好
配对排序学习算法
用户浏览网站时,哪些信息可以帮助组成更多的配对
实验结果
数据集
负样本采样
隐反馈数据
推荐算法
思考题
方法的实验效果
论文主要贡献和核心方法
BPR
BPR改进论文知识关系脑图

该思维导图由 AI 生成,仅供参考

今天,我们来看万维网大会上的一篇优秀短论文。在万维网大会上,主要发表两类论文。一类是 10 页的长论文,一类是 2 页的短论文或称作展板论文。短论文主要是发表短小的成果或者是还在研究过程中的重要成果。每一届的万维网大会,都会评选出一篇最佳短论文奖。
今天我和你分享的论文,题目是《利用查看数据,贝叶斯个性化排序的一种改进的取样器》(An Improved Sampler for Bayesian Personalized Ranking by Leveraging View Data)。这篇论文也有六位作者,和我们介绍的上一篇论文一样,都来自清华大学和新加坡国立大学。

贝叶斯个性化排序

要想理解这篇论文的内容,我们必须要讲一下什么是“贝叶斯个性化排序”(Bayesian Personalized Ranking),或者简称是 BPR。有关 BPR 的详细介绍,可以阅读参考文献[1]。我们在这里仅对 BPR 进行一个高维度的总结。
简单来说,BPR 是推荐系统中的一个配对排序(Pairwise)学习算法。在我们前面介绍搜索算法的时候,曾经提到了各种配对排序学习算法。配对排序学习不是针对每一个数据实例来学习其标签或者响应变量,而是学习一个相对的顺序,希望能够把所有的正例都排列到负例之前。也就是说,对于配对排序来说,每一个数据实例的预测值本身并不重要,排序算法在意的是对于一正一负的一个配对来说,是否能够把正例给准确地排列到负例之上。这其实就要求 BPR 在数值上对正例的预测值能够比负例的预测值高。
BPR 主要是解决了在推荐系统中长期以来只对单个数据点进行预测,比如需要对用户物品的喜好矩阵建模的时候,之前的大多数算法都无法有效地对没有观测到的数据进行建模。而 BPR 是配对算法,因此我们只需要关注观测的数据以及他们之间的关系,从而能够对用户的喜好,特别是有“隐反馈”(Implicit Feedback)数据的时候,取得更加明显的效果。这里的隐反馈指的并不是用户告诉系统其对每一个物品的喜好程度,而是用户在和系统的交互过程中通过一些行为表达出的喜好。这些用户的行为往往并不全面,因此需要算法和模型能够对这些行为进行有效建模。

论文的主要贡献和核心方法

了解了 BPR 大概是怎么回事以后,我们来看一看这篇论文的主要贡献和核心方法。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

这篇文章介绍了如何改进经典的推荐算法BPR(Bayesian Personalized Ranking)。BPR是一个配对排序学习算法,用于解决推荐系统中的隐反馈数据建模问题。文章提出了一种改进的取样器,通过对用户的行为数据进行划分和采样,提高了算法的有效度和效率。 在论文中,作者首先介绍了BPR算法的基本原理和应用背景,然后提出了两个主要贡献:一是发现全局均匀地采样负样本可能会影响最后学习效果,二是提出了一种负样本采样的方法,利用更多的用户“浏览”信息来提升算法的整体训练效果。作者还通过实验验证了他们的方法,在母婴产品网站和天猫的数据集上取得了显著的效果提升。 这篇论文的亮点在于提出了一种新的负样本采样方法,通过对用户行为数据的划分和采样,使得算法的推荐效果比传统方法提高了60%左右。这对于提高推荐系统的准确度和用户体验具有重要意义。 总的来说,这篇论文对BPR算法进行了深入的研究和改进,提出了一种创新的负样本采样方法,为推荐系统的优化提供了有益的思路和实践经验。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 吴文敏
    对这个思路稍作拓展,我们只要定义隐反馈行为间的偏序关系,就可以基于多种隐反馈(浏览、点击、购买、加入购物车)进行配对采样
    2018-07-20
    2
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部