070 | 推荐系统评测之一：传统线下评测

洪亮劼



该思维导图由 AI 生成，仅供参考

上周我们讨论了 EE 算法，介绍了 UCB（Upper Confidence Bound）算法和“汤普森采样”（Thompson Sampling）。
这周，我们回归到一个更加传统的话题，那就是如何评测推荐系统。这个话题非常重要，牵涉到如何持续对一个推荐系统进行评价，从而能够提高推荐系统的精度。
今天，我们先来看一看推荐系统的线下评测。
基于评分的线下评测在过去 10 年里，随着 Netflix 大奖赛的举行，很多研究人员和工程人员往往把推荐系统的模型学习简化为对用户评分的一种估计。同时，在模型上面来说，对用户物品评分矩阵进行分解成为了一种主流的方法。
在这样的场景下，如何对模型进行评测呢？
一种简单且直观的办法，就是衡量评分的准确性，换句话说，也就是看我们预测的评分和真实评分之间有多大的差距。
那么，有哪些方法可以用来衡量两个数值之间的差异呢？
在机器学习中，一个经常使用的测度叫“均方差”（Mean Square Error），或 MSE。有时候，我们也会使用它的根号后的结果，叫作“方差”（Rooted Mean Square Error），或 RMSE。
MSE 是这么定义的。首先，如果我们知道一个用户 i 和物品 j 的真实评分，假设叫 Yij​ ，那么我们的一个估计值是 Zij​，MSE 计算的就是 Yij​ 和 Zij​ 的差值，然后取平方。平方以后的结果肯定是一个正数，也就是说这样做的好处是整个计算不会出现负数，我们的估计值比真实值小了或者大了，MSE 都可以处理。当我们对于每一个用户和物品都计算了这个差值以后，再对所有的差值的平方取一个平均值，就得到了我们所要的 MSE。
从计算上来讲，RMSE 就是在 MSE 的基础上再取一个根号。我们在很多实际应用中，往往使用 RMSE 来汇报模型的评测结果。同时，RMSE 也经常用在大多数的学术论文中，但这个评测有没有什么问题呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

推荐系统的传统线下评测方法主要包括基于评分和基于排序的评测。基于评分的线下评测通常使用均方差（MSE）或根号均方差（RMSE）来衡量模型预测评分与真实评分之间的差异，但RMSE存在着对用户评分数量的偏向和与真实应用场景的脱节等问题。因此，研究人员开始将搜索领域的评测方法移植到推荐系统中，使用精度和召回率等指标来评测推荐系统，同时利用用户的点击或购买信息作为二元相关度，以此来评估推荐系统的性能。基于排序的评测方法已成为推荐系统线下评测的标准指标。文章提出了对基于排序的评测方法可能存在的致命问题进行思考。整体而言，本文介绍了推荐系统的传统线下评测方法及其局限性，并探讨了基于排序的评测方法的应用，为读者提供了对推荐系统评测的深入了解。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

ninenight
利用ndcg在做线下评测的时候怎么具体操作呢，是先标注点击相关吗，但是线下评测的时候还没上到线上呢，也不知道点击数据，这个时候怎么在线下评测呢，比如我要现在线下评测下效果，然后再上线，这个时候怎么能评测效果呢，请指教
2018-11-13


林彦
基于排序的推荐系统会一直推荐用户有交互行为的物品，发掘新物品和保持多样性的能力会降低
2018-03-27



收起评论