推荐系统三十六式
刑无刀
“贝壳找房”资深算法专家,8年推荐系统工程师
立即订阅
11436 人已学习
课程目录
已完结 39 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 用知识去对抗技术不平等
免费
第1章 概念篇 (3讲)
【概念篇】你真的需要个性化推荐系统吗?
【概念篇】个性化推荐系统那些绕不开的经典问题
【概念篇】这些你必须应该具备的思维模式
第2章 原理篇 (20讲)
【内容推荐】画鬼容易画人难:用户画像的“能”和“不能”
【内容推荐】从文本到用户画像有多远
【内容推荐】超越标签的内容推荐系统
【近邻推荐】人以群分,你是什么人就看到什么世界
【近邻推荐】解密“看了又看”和“买了又买”
【近邻推荐】协同过滤中的相似度计算方法有哪些
【矩阵分解】那些在Netflix Prize中大放异彩的推荐算法
【矩阵分解】Facebook是怎么为十亿人互相推荐好友的
【矩阵分解】如果关注排序效果,那么这个模型可以帮到你
【模型融合】经典模型融合办法:线性模型和树模型的组合拳
【模型融合】一网打尽协同过滤、矩阵分解和线性模型
【模型融合】深度和宽度兼具的融合模型 Wide and Deep
【MAB问题】简单却有效的Bandit算法
【MAB问题】结合上下文信息的Bandit算法
【MAB问题】如何将Bandit算法与协同过滤结合使用
【深度学习】深度学习在推荐系统中的应用有哪些?
【深度学习】用RNN构建个性化音乐播单
【其他应用算法】构建一个科学的排行榜体系
【其他应用算法】实用的加权采样算法
【其他应用算法】推荐候选池的去重策略
第3章 工程篇 (10讲)
【常见架构】典型的信息流架构是什么样的
【常见架构】Netflix个性化推荐架构
【常见架构】总览推荐架构和搜索、广告的关系
【关键模块】巧妇难为无米之炊:数据采集关键要素
【关键模块】让你的推荐系统反应更快:实时推荐
【关键模块】让数据驱动落地,你需要一个实验平台
【关键模块】 推荐系统服务化、存储选型及API设计
【效果保证】推荐系统的测试方法及常用指标介绍
【效果保证】道高一尺魔高一丈:推荐系统的攻防
【开源工具】和推荐系统有关的开源工具及框架介绍
第4章 产品篇 (3讲)
【产品篇】推荐系统在互联网产品商业链条中的地位
【产品篇】说说信息流的前世今生
【团队篇】组建推荐团队及工程师的学习路径
尾声与参考阅读 (2讲)
推荐系统的参考阅读
【尾声】遇“荐”之后,江湖再见
推荐系统三十六式
登录|注册

【矩阵分解】那些在Netflix Prize中大放异彩的推荐算法

刑无刀 2018-03-26
早在前几篇务虚的文章中,我就和你聊过了推荐系统中的经典问题,其中有一类就是评分预测。
让我摸着自己的良心说,评分预测问题只是很典型,其实并不大众,毕竟在实际的应用中,评分数据很难收集到,属于典型的精英问题;与之相对的另一类问题行为预测,才是平民级推荐问题,处处可见。

缘起

评分预测问题之所以“虽然小众却十分重要”,这一点得益于十多年前 Netflix Prize 的那一百万美元的悬赏效应。
公元 2006 年 10 月 2 号,对于很多人来说,这只是平凡了无新意的一天,但对于推荐系统从业者来说,这是不得了的一天,美国著名的光盘租赁商 Netflix 突然广发英雄帖,放下“豪”言,这个就是土豪的“豪”,凡是能在他们现有推荐系统基础上,把均方根误差降低 10% 的大侠,可以瓜分 100 万美元。消息一出,群贤毕至。
Netflix 放出的比赛数据,正是评分数据,推荐系统的问题模式也是评分预测,也就是为什么说,评价标准是均方根误差了。
这一评分预测问题在一百万美元的加持下,催生出无数推荐算法横空出世,其中最为著名的就是一系列矩阵分解模型,而最最著名的模型就是 SVD 以及其各种变体。这些模型后来也经受了时间检验,在实际应用中得到了不同程度的开枝散叶。
今天我就来和你细聊一下矩阵分解,SVD 及其最有名的变种算法。

矩阵分解

为什么要矩阵分解

聪明的你也许会问,好好的近邻模型,一会儿基于用户,一会儿基于物品,感觉也能很酷炫地解决问题呀,为什么还要来矩阵分解呢?
刨除不这么做就拿不到那一百万的不重要因素之外,矩阵分解确实可以解决一些近邻模型无法解决的问题。
我们都是读书人,从不在背后说模型的坏话,这里可以非常坦诚地说几点近邻模型的问题:
物品之间存在相关性,信息量并不随着向量维度增加而线性增加;
矩阵元素稀疏,计算结果不稳定,增减一个向量维度,导致近邻结果差异很大的情况存在。
上述两个问题,在矩阵分解中可以得到解决。矩阵分解,直观上说来简单,就是把原来的大矩阵,近似分解成两个小矩阵的乘积,在实际推荐计算时不再使用大矩阵,而是使用分解得到的两个小矩阵。
具体说来就是,假设用户物品的评分矩阵 A 是 m 乘以 n 维,即一共有 m 个用户,n 个物品。我们选一个很小的数 k,这个 k 比 m 和 n 都小很多,比如小两个数量级这样,通过一套算法得到两个矩阵 U 和 V,矩阵 U 的维度是 m 乘以 k,矩阵 V 的维度是 n 乘以 k。
这两个矩阵有什么要求呢?要求就是通过下面这个公式复原矩阵 A,你可以点击文稿查看公式。
类似这样的计算过程就是矩阵分解,还有一个更常见的名字叫做 SVD;但是,SVD 和矩阵分解不能划等号,因为除了 SVD 还有一些别的矩阵分解方法。

1 基础的 SVD 算法

值得一说的是,SVD 全称奇异值分解,属于线性代数的知识 ; 然而在推荐算法中实际上使用的并不是正统的奇异值分解,而是一个伪奇异值分解(具体伪在哪不是本文的重点)。
今天我介绍的 SVD 是由 Netflix Prize 中取得骄人成绩的 Yehuda Koren 提出的矩阵分解推荐算法。
按照顺序,首先介绍基础的 SVD 算法,然后是考虑偏置信息,接着是超越评分矩阵增加多种输入,最后是增加时间因素。好,一个一个来。
前面已经从直观上大致说了矩阵分解是怎么回事,这里再从物理意义上解释一遍。矩阵分解,就是把用户和物品都映射到一个 k 维空间中,这个 k 维空间不是我们直接看得到的,也不一定具有非常好的可解释性,每一个维度也没有名字,所以常常叫做隐因子,代表藏在直观的矩阵数据下面的。
每一个物品都得到一个向量 q,每一个用户也得到一个向量 p。对于物品,与它对应的向量 q 中的元素,有正有负,代表着这个物品背后暗藏的一些用户关注的因素。
对于用户,与它对应的向量 p 中的元素,也有正有负,代表这个用户在若干因素上的偏好。物品被关注的因素,和用户偏好的因素,它们的数量和意义是一致的,就是我们在矩阵分解之处人为指定的 k。
举个例子,用户 u 的向量是 pu,物品 i 的向量是 qi,那么,要计算物品 i 推荐给用户 u 的推荐分数,直接计算点积即可:
看上去很简单,难在哪呢?难在如何得到每一个用户,每一个物品的 k 维向量。这是一个机器学习问题。按照机器学习框架,一般就是考虑两个核心要素:
损失函数;
优化算法。
SVD 的损失函数是这样定义的:
理解 SVD 的参数学习过程并不是必须的,如果你不是算法工程师的话不必深究这个过程。
由于这个公式略复杂,如果你正在听音频,就需要自己看一下图片。这个损失函数由两部分构成,加号前一部分控制着模型的偏差,加号后一部分控制着模型的方差。
前一部分就是:用分解后的矩阵预测分数,要和实际的用户评分之间误差越小越好。
后一部分就是:得到的隐因子向量要越简单越好,以控制这个模型的方差,换句话说,让它在真正执行推荐任务时发挥要稳定。这部分的概念对应机器学习中的过拟合,有兴趣可以深入了解。
整个 SVD 的学习过程就是:
准备好用户物品的评分矩阵,每一条评分数据看做一条训练样本;
给分解后的 U 矩阵和 V 矩阵随机初始化元素值;
用 U 和 V 计算预测后的分数;
计算预测的分数和实际的分数误差;
按照梯度下降的方向更新 U 和 V 中的元素值;
重复步骤 3 到 5,直到达到停止条件。
过程中提到的梯度下降是优化算法的一种,想深入了解可以参见任何一本机器学习的专著。
得到分解后的矩阵之后,实质上就是得到了每个用户和每个物品的隐因子向量,拿着这个向量再做推荐计算就简单了,哪里不会点哪里,意思就是拿着物品和用户两个向量,计算点积就是推荐分数了。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《推荐系统三十六式》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(29)

  • Dan
    請問老師隱性因子k的個數通常如何決定?

    作者回复: 用K-fold确定。

    2018-04-04
    5
  • 衬衫的价格是19美元
    1.用户物品评分矩阵中某个特定用户一般只给其中的部分物品有评分,那么如何计算该用户对未评分物品的推荐分呢?
    2.通过分解用户物品评分矩阵得到隐式因子,这是隐藏在用户物品中的不为人直观理解的影响因子,却又能深刻揭示用户物品的关系
    3.因此,从用户物品评分矩阵分解得到隐式因子是关键,一般用SVD方法
    2019-02-19
    1
    2
  • 林彦
    行为数据对于每个用户每个物品已经不是一个数值。这时候预测的还是评分吗?我觉得数值处理过程和目标很可能不同,损失函数需要做一些修改。
    2018-03-26
    1
    2
  • sangyongjia
    用户物品评分矩阵中某个特定用户一般只给其中的部分物品有评分,评分矩阵是极度稀疏的,但是在矩阵分解时需要使用到评分矩阵。问题是:这些未评分的位置如何填充呢?
    2019-04-30
    1
    1
  • 陈洋溢
    有个疑问,已经有原始的评分矩阵,结果通过分解得到两个稠密矩阵,最后还是相乘又去估算得到评分相比本来的评分的优势在哪呢?是因为相乘后对那些没有评分过的物品也会有值出现么
    2019-04-12
    1
  • 愚公移山
    老师,在SVD++分解中,用户的隐式反馈数据和用户属于是怎样加入到用户物品评分矩阵中的呢?损失函数应该需要这部分数据做监督训练的

    作者回复: 就是认为每个隐式反馈对象和每个属性都是一个特征,都对应一个隐因子向量。也就是公式中的xi和ya。

    2018-03-27
    1
  • Skye
    老师,我想问一下,SVD++对于隐式反馈数据,损失函数拟合的rui值是0吗?还有用户行为向量x和用户属性y这个迭代初始值是什么,加上这两个向量,可是损失函数拟合的还是评分,这两个向量好像有点捉摸不透,意义在哪,能否细讲一下

    作者回复: 其实就是,每个隐式反馈对象ID都是特征,这些特征背后都有一个k维的隐因子向量。所有这些隐因子向量都是未知参数,同等地位被优化,所以都是随机初始化。

    2018-03-26
    1
  • 185
    根据我的理解,损失函数对行为数据是有用的,例如购买物品的数量、观看或者收听的时长、每天打开app的次数等都是和评分类似的数据。
    我理解的对吗?

    作者回复: 可以这样处理,但又略有不同,下一篇会讲。

    2018-03-26
    1
  • neohope
    试着回答一下老师的问题:
    由于行为数据是离散值,不是连续值,所以损失函数在没有修改的情况下,应该不适用。
    而且,离散数据的话,好像也不适合梯度下降算法。
    如果是离散数据,做聚类会不会更简单一些呢?
    2019-12-04
  • wong
    行为预测问题是分类问题,需要交叉熵函数作为损失函数
    2019-10-26
  • Geek_86533a
    请问SVD++中的x和y如何生成,随机吗?
    2019-08-16
  • FF
    偏置值,就是任性值哈哈哈
    2019-07-19
  • 北冥Master
    SVD++公式中,Nu -0.5,为什么是这个参数呢?
    2019-07-15
    1
  • 漂泊的小飘
    呃……学习AI的时候一直不知道奇异值分解的方法,原来是这样啊。。。感谢
    2019-07-01
  • 张贝贝
    svd++中的item向量q和隐士反馈的item向量x是独立的吗?
    2019-05-21
  • 戏入蝶衣
    在最基础的svd模型里,如果不添加用户和物品的评分bias,会有什么影响?

    作者回复: 一般实际工作中也常常不分离出bias。

    2019-05-07
  • shangqiu86
    老师,我还有个疑问就是基于矩阵分解的协同过滤和这节课讲的矩阵分解是不是就是一套算法啊?
    2019-04-29
  • shangqiu86
    老师,您好,我之前用过spark的ALS,我负责的项目中没有显示反馈,全部是隐式反馈,比如点击、点赞、收藏这种,所以我是对每种行为定义了分数,比如点击是3分,点赞4分,收藏或分享是5分这样,然后使用的矩阵分解,上线效果并不理想,我不知道这样是不是不合适?正好您也留了这个思考作业,所以希望您能指点下
    2019-04-29
  • 杜骞
    伪体现在伪逆吧
    2019-02-10
  • nebula
    请问SVD分解,针对新用户、新物品,怎么做更新呢

    作者回复: SGD(随机梯度下降)本身就是可以在线更新的。

    2018-10-25
收起评论
29
返回
顶部