作者回复: 如果每个posting list都存了所有的商品,的确会比较浪费空间,而且其实也没必要,因为最后只会选取top k个。因此,我们可以对posting list进行截断,仅保留相似度超过一定阈值的item就好了。这样就能大幅减少空间。
作者回复: 并不是哦。在基于物品的协同过滤中,对于要推荐的item,我们之前并不知道这个item和user1有什么关系,我们知道的是两个信息:
一个是user1对item1的打分(记为w),另一个是item1和item的相似度(记为s),因此,user1和item的相关性,就是w*s
作者回复: 1.第一个问题,的确,最后针对某个用户推荐的时候,我们是需要具体计算和这个指定用户的相关性的。不过我在文中也说过,item based方案的实现会分为两部分,第一部分是离线构建起相似item的倒排表,第二部分才是在线上环节,根据具体用户,找出推荐item。我在这道题中,其实只要求做第一步,给出每个item对应的posting list即可。如果你想把第二步对具体用户推荐也完成的话,可以以用户1为例子,看看会推荐出什么item。