极客时间-轻松学习，高效学习-极客邦

静心
2023-08-28 来自北京
我在想一个问题，如果是成百万或上千万甚至更多级别的文章，再加上上百万甚至千万级别的用户，这么打循环计算，需要什么样的服务器才可以胜任？
alexliu
2023-06-07 来自上海
"a 和 b 的共现次数为 2，喜欢 a 的用户数是 3，喜欢 b 的用户数是 2，那么我们可以计算出 ab 的相似度 2/6=0.33" 这里是不是应该对6开根号？相似度应该是2/sqrt(6)=0.81吧
Geek_ccc0fd
2023-06-02 来自广东
问题2：数据集就是user-item的交互行为日志，然后group by user得到每个用户点击/点赞/收藏过的item_list，传入我们的函数中做相似度计算，这里还可以根据行为的不同做加权
peter
2023-05-30 来自北京
Q1：相似度的计算有多种方法，一个网站会应用多种方法吗？ Q2：相似度计算的规模，或者说矩阵的规模，一般多大？ Q3：对于一个用户的相似度的计算，网站多久更新一次？ Q4：一个网站后端是用Java开发的，计算相似度的时候，会采用Java吗？有观点认为Java计算慢，是否会采用速度更快的？比如C、C++，或者python？
翡翠虎
2023-05-29 来自广西
每天新增很多（几十万篇）文章的情况下，怎么做相似度计算呢？是一次性批量计算相似度还是有别的方法？