静心
2023-08-28
来自北京
我在想一个问题,如果是成百万或上千万甚至更多级别的文章,再加上上百万甚至千万级别的用户,这么打循环计算,需要什么样的服务器才可以胜任?
alexliu
2023-06-07
来自上海
"a 和 b 的共现次数为 2,喜欢 a 的用户数是 3,喜欢 b 的用户数是 2,那么我们可以计算出 ab 的相似度 2/6=0.33" 这里是不是应该对6开根号?相似度应该是2/sqrt(6)=0.81吧
Geek_ccc0fd
2023-06-02
来自广东
问题2:数据集就是user-item的交互行为日志,然后group by user得到每个用户点击/点赞/收藏过的item_list,传入我们的函数中做相似度计算,这里还可以根据行为的不同做加权
peter
2023-05-30
来自北京
Q1:相似度的计算有多种方法,一个网站会应用多种方法吗? Q2:相似度计算的规模,或者说矩阵的规模,一般多大? Q3:对于一个用户的相似度的计算,网站多久更新一次? Q4:一个网站后端是用Java开发的,计算相似度的时候,会采用Java吗?有观点认为Java计算慢,是否会采用速度更快的? 比如C、C++,或者python?
翡翠虎
2023-05-29
来自广西
每天新增很多(几十万篇)文章的情况下,怎么做相似度计算呢?是一次性批量计算相似度还是有别的方法?