极客视点
极客时间编辑部
极客时间编辑部
113241 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/04:12
登录|注册

推荐系统应该如何保障推荐的多样性?

讲述:丁婵大小:1.93M时长:04:12
推荐系统的多样性并不应该是一个推荐系统追求的终极目标。因为多样性,是手段,不是目标。
为什么不能作为目标呢?原因有以下 3 点:
多样性很难量化。
多样性不是越多越好。
多样性对于每个人、每个场景来说,是不一样的,好坏点不同。
对于多样性,很多人会说适合就好,但是适合的点很难评判。那么,哪些指标是可以采用多样性呢?
可以看看后台中关于多样性的用户反馈数量,这个指标至少是越少越好的,是一个非常可以量化的指标。不过这个信号太稀疏了,不足以从中提取有统计意义的信息,倒是有可能发现一些明显的问题。
另外,用户的点击率、阅读时长、留存、分享、互动数据,这是推荐系统的 ground truth,如果你可以建立这些 ground truth 和多样性之间的关系,那么显然对多样性的评判指标是有帮助的。
记住,用一个真正的指标为准绳和目标去优化多样性,不要为了多样性而多样性。
比如你的推荐系统的优化目标是阅读时长,如果增加多样性可以提升时长,就去做,如果增加多样性不能够提升时长,那你就不要这么做。
多样性的问题在于你的业务实际要优化一个排列组合,你优化的只是某一个点,那么因为你的模型和你使用模型的业务场景不同,你拿到的结果自然不是最优。更通俗地说,你喜欢吃虾,给你上一桌全是虾的菜,大概率是一个失败的菜单,而一桌有鱼、有虾、有鸡、有鸭的菜可能会更好。因为你对每个菜都不喜欢的概率大大降低了。
你肯定会问,为什么不直接去建立一个模型,样本就用 list,然后直接对所有候选集的可能排列组合进行打分,再选出最优的内容排列组合呢?
不妨先假设你已经训练出了这样一个模型,假设你是做短视频推荐信息流的,当前推荐有 100 个可选候选集,你想一次推荐 5 个短视频,这需要遍历多种可能性才能找到最优的组合,这显然是没有计算可行性的。
而实际上,你训练出这样的一个模型,也对你的样本量和计算基础设施有非常高的要求。那么怎么办呢?其实有三种办法可以参考。
第一种,老专家规则。也就是一些启发式的策略,你拍拍脑袋或者抄一抄别的推荐系统,就能得到答案,然后通过大量快速的 A/Btest 迭代测试找到对你的业务场景来说靠谱可行的策略(集合)。
第二种办法是使用更长更丰富的召回拉链,保证更多样的内容可以进入排序阶段。只要系统不会死,除了你的云服务器账单会增长得更快以外,没有什么其他坏处。但是仅仅增加召回拉链的数量,并不能彻底解决多样性问题,因为你并没有改变预估模型的逻辑,只是提供了更多的候选集。
第三种办法是建立一个模型,用一些贪心的方法,比如要么减少搜索空间,要么对这个空间的性质做一些理想假设来降维,以预测什么样的 list 组合是最优的。
最后,总结一下,本文想表达的内容主要有两点:
多样性不是你追求的目标,但多样性确实可以帮你提升某些具体指标:比如更少的用户投诉、更多的时长和点击量。
多样性问题的本质是 ctr 或类似预估问题,是对单点最优进行预测,而我们的真实业务往往给出的是一个列表。求列表最优的问题计算空间过大,所以我们会用一些老专家规则或者用降低空间维度、复杂度等方式来取巧解决。
以上就是今天的内容,希望对你有所帮助。
原文链接:
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
13
沉浸
阅读
分享
手机端
快捷键
回顶部