林彦
2018-04-21
对于最后一个排行榜的水军刷榜问题我考虑到的因素有:
1. 单位时间的有效单个物品评论数不能偏离整个网站物品新发布之后同期的评论数太多;
2. 评分高峰期之后随时间的衰减幅度不会太快;
3. 参与评分的用户之前长期评分的数量(单位时间多次评分只算1次)越多,对权重的影响越大;
4. 像以前其他文章介绍的考虑评分和用户评分均值的差距;
5. 考虑评分地址的IP地址,其他设备标识是否重复,是否有有效身份标识,是否有有效付费(这部分用户如果比例太低会被作弊者利用)
展开
15
🐱您的好友William...
2018-10-09
防止水军刷榜,就要观察水军的特征,其实不难发现,水军都是新注册帐号且只有一个评价或者两个评价,所以在贝叶斯平均的公式中把R换成用户加权平均,就是之前评分评得越多的用户说话越有分量,说话越少的用户意见越没有参考价值~
这个对于水军有效,但是对于脑残粉是无效的,那么对于脑残粉,老师在“看了又看”那篇博客中说物品中心化可以实现,但是这个是针对于计算关系矩阵的。
(以下我个人的想法,轻喷),其实正常没有脑残粉的评分,都是符合某些特定的分布,这个是可以人工专家engineer出来的,只要评分足够多,那么基本上都是会符合这些特定分布的。所以我们可以使用Wasserstein metric或者KL-divergence,从用户评分得出一个分布和我们专家得出来的分布进行比对,两个分布差距越大就说明这个评分越不正常。(就比如现实中评分3分左右的电影的分布很有可能就像高斯分布一样,那么有一个平均分为3分的电影,5分评分人超级多,1分的也超级多,明显就不正常,脑残粉刷5分,吃瓜群众1分给烂片这样,两个分布的“距离”就会很大。)。把这个“距离”也加到最终评分里面去作为权重就好了!
展开
5
shangqiu86
2019-05-05
这章都可以应用到我目前的推荐项目中去,目前负责三个坑位,一个是问答,一个是ugc推荐,一个是资讯推荐,谢谢老师的分享,学习了
上个纪元的赵天师
2019-03-20
反复看了几遍,我觉得每一章都非常有启发
作者回复: 那就多多分享。
刘大猫
2018-04-20
干活满满的一章 衰减这个东西在确定种子集的时候也能用
JOJOe
2018-04-20
请问有无源码进行学习呢?
我们在线,来聊聊吧
✕
您好,当前有专业客服人员在线,让我们来帮助您吧。
我们在线,来聊聊吧