• 静心
    2023-08-28 来自北京
    我在想一个问题,如果是成百万或上千万甚至更多级别的文章,再加上上百万甚至千万级别的用户,这么打循环计算,需要什么样的服务器才可以胜任?
    
    
  • alexliu
    2023-06-07 来自上海
    "a 和 b 的共现次数为 2,喜欢 a 的用户数是 3,喜欢 b 的用户数是 2,那么我们可以计算出 ab 的相似度 2/6=0.33" 这里是不是应该对6开根号?相似度应该是2/sqrt(6)=0.81吧
    
    
  • Geek_ccc0fd
    2023-06-02 来自广东
    问题2:数据集就是user-item的交互行为日志,然后group by user得到每个用户点击/点赞/收藏过的item_list,传入我们的函数中做相似度计算,这里还可以根据行为的不同做加权
    
    
  • peter
    2023-05-30 来自北京
    Q1:相似度的计算有多种方法,一个网站会应用多种方法吗? Q2:相似度计算的规模,或者说矩阵的规模,一般多大? Q3:对于一个用户的相似度的计算,网站多久更新一次? Q4:一个网站后端是用Java开发的,计算相似度的时候,会采用Java吗?有观点认为Java计算慢,是否会采用速度更快的? 比如C、C++,或者python?
    
    
  • 翡翠虎
    2023-05-29 来自广西
    每天新增很多(几十万篇)文章的情况下,怎么做相似度计算呢?是一次性批量计算相似度还是有别的方法?
    
    