071 | 推荐系统评测之二：线上评测

洪亮劼



该思维导图由 AI 生成，仅供参考

周一，我们聊了推荐系统的线下评测。线下评测是任何系统能够不断演化的最直接的要求。在线下的环境中，我们能够开发出系统的种种改进，并且希望能够通过这些线下评测的手段来选择下一个更好的版本。
今天，我们来讨论推荐系统的线上评测。任何系统在开发之后最终都要放到线上拿给用户使用。那么，在线上评测的时候需要注意什么呢？
线上评测的基础推荐系统线上评测的基础和我们之前讲过的搜索系统有很多类似的地方。
线上评测的核心就是在线可控实验，有时候又称作是在线实验，或者叫作在线 A/B 实验。我们希望能够利用在线实验来对推荐系统的某一个部分进行检验，看是否对用户和系统的交互产生影响。
在线可控实验其实是建立“因果联系”（Causal Relationship）的重要工具，也可以说是唯一完全可靠的工具。这里面的基础是统计的假设检验。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

推荐系统的线上评测是推动系统不断演化的重要环节。在线可控实验是评测的核心，通过在线实验和假设检验来检验推荐系统的改进对用户和系统交互的影响。然而，在实际操作中存在诸多挑战，如用户群体的差异、多变量的影响、以及如何有效进行在线实验等。针对推荐系统的线上评测指标，文章提出了用户的驻留时间和空缺时间作为通用指标。这些指标能更好地反映用户对推荐系统的满意度。总的来说，推荐系统的线上评测是一个复杂而重要的环节，需要综合考虑多方面因素，以确保系统的不断优化和改进。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(3)

最新
精选

damonhao
观察依赖变量，如点击率。排除其他因素的干扰，如ue，内容等。做起来感觉很难。
2018-04-06

2
兔子ORZ
兴趣点降低，驻留时间，空缺时间两个指标会会在相对比率上降低。但是推荐系统实时响应会差一点。
2018-04-12


林彦
对于包含推荐内容的页面，(1)访问间隔时间变长，(2)每次访问的时间变短，(3)点击或其他可衡量的与推荐内容的互动次数变，互动时长变短。这些说明用户对推荐的内容越来越不敢兴趣。
2018-03-28



收起评论