059 | 简单推荐模型之二：基于相似信息的推荐模型

洪亮劼



该思维导图由 AI 生成，仅供参考

这周我们开始讲推荐系统。周一的文章中，我们聊了一个最基本的推荐模型：基于流行度的推荐模型。这是一种简单且实用的推荐系统搭建方式，那就是需要对每一个物品的流行度进行估计。
今天，我们来看另外一种简单但很有效果的推荐模型：基于相似信息的推荐模型。
什么是相似信息的推荐模型相似信息的推荐模型又叫“临近”（Neighborhood）模型。顾名思义，就是我们希望利用临近、或者相似的数据点来为用户推荐。
临近模型的内在假设是推荐系统中著名的“协同过滤”（Collaborative Filtering）。什么意思呢？就是说，我们认为，相似的用户可能会有相似的喜好，相似的物品可能会被相似的人所偏好。于是，如果我们能够定义怎么寻找相似的用户或者相似的物品，那么我们就可以利用这些类别的人群或者物品来给用户进行推荐。
例如，对于一个电影推荐的场景来说，有一个用户 A 观看了电影《战狼 2》，我们希望根据这个信息来为用户进行推荐。很显然，如果我们仅仅知道用户 A 观看过《战狼 2》，这个信息是非常有限的。但是，假设有一个用户 B 也观看过《战狼 2》，并且最近还观看过《红海行动》。那么， 我们可以根据 B 的信息来对 A 进行推荐，也就是说，我们认为用户 A 也有可能喜欢《红海行动》。
这里面，我们其实经历了这么两个步骤。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

基于相似信息的推荐模型是推荐系统中的一种简单而有效的模型。该模型基于协同过滤的假设，即相似的用户或物品可能具有相似的偏好，从而利用相似的数据点为用户进行推荐。在基于相似用户的协同过滤中，首先构建相似用户集合，然后根据这些相似用户对物品的评分进行加权平均，以预估目标用户对物品的偏好。在构建相似用户集合时，可以使用皮尔森相关度来定义用户之间的相似度，并设定阈值来筛选相关用户。此外，还需要对评分进行修正，以减去用户的平均打分，得到更合适的打分算法。另外，基于相似物品的协同过滤也是一种有效的推荐模型，它利用用户对相似物品的偏好来预测目标物品的偏好。总的来说，基于相似信息的推荐模型为推荐系统提供了一种简单而有效的建模手段，但其致命问题仍需要进一步讨论。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

林彦
谢谢洪老师的分享。按照网上的信息，这里列一下传统的协同过滤常见问题稀疏性（Sparsity）问题：用户和项目的数量非常大时评分矩阵会极度稀疏，对算法的效率产生消极影响；同时由于这个问题的存在，两个用户的之间的相似度很有可能为零，产生“邻居传递损失”现象。同义词（Synonymy）问题：在实际应用中，不同的项目名称可能对应相似的项目，基于相似度计算的推荐系统不能发现这样的潜在关系，而是把它们当不同的项目对待。新用户/项目(New User/Item）问题：对于新用户问题，由于没有对项目产生任何评分，因此也无法计算相似度，当然也就不能产生推荐。对于新项目，同样存在类似问题，系统在开始时推荐品质较差。也就是另一个评论中提到的“冷启动问题”。从一定角度可以看成是稀疏问题的极端情况。可扩展（Scalability）问题：基于最近邻算法在项目和用户的维数增加会导致计算量非常大，算法的可扩展性(即适应系统规模不断扩大的问题)会影响模型的训练时间。基于模型的算法虽然可以在一定程度上解决算法的可扩展性问题，但是该类算法往往比较适于用户的兴趣爱好比较稳定的情况，因为它要考虑用户模型的学习过程以及模型的更新过程，对于最新信息的利用比全局数值算法要差些。KNN方法可以对整个数据集的子集进行实验，依据他们的统计数据来获得最近邻居，但有可能会引入误差。个性化（Personalization)问题：也就是如何推荐给用户小众独特的商品，而不是都只推荐主流的商品。我个人认为还有如何推荐新的商品，让用户有惊喜。但又要保持平衡。我感觉去年netflix的"artwork-personalization"就是朝这个方向努力的传统的推荐系统出了文中提到的方法外，还有把内容推荐(老师的下篇文章)和协同推荐组合在一起的算法和基于聚类的协同过滤推荐算法。
2018-03-02

13
Peter
冷启动阶段啥用户行为不够多的时候，感觉会有问题
2018-02-28

3

收起评论