极客时间-轻松学习，高效学习-极客邦

jt120

2018-03-19

看了前面，想吐槽，这不是推荐系统实战书里的东西吗？越往后看，发展干货越多，套路啊。
期待更多的干货

作者回复: 放学别走，你给我等着。



 11
Citi Lai

2018-03-19

今天對於技術細節描述稍微抽象，是否有建議範例程式碼的參考？謝謝！

作者回复: 专栏以手机阅读为主，所以就尽量不放代码，只讲原理。后面会有图书计划，那里面会补上代码。适合深度阅读。

 1

 7
xzyline

2018-03-19

本身不是做推荐的，有什么比较好的途径可以实践一下这些推荐知识。

作者回复: Kaggle 上参加比赛。



 6
张方

2018-05-25

您好我对mapreduce进行相似度计算不是很理解能给一个model



 4
idiotslkp

2018-03-29

老师你好，我之前从来没接触过推荐系统这些东西，我发现你说的我很多知识点都看不懂，想学又不知道从哪入手，学习推荐系统应该提前具备的相关知识是？烦请老师给我指导一下，我去学习相关知识后再来看......



 3
crazypeng6

2018-04-13

我是刚毕业的非计算机硕士，在一个小公司做算法，最近要做一个新闻类APP，需要用推荐系统（先从简单的做起），感觉只用协同过滤不够，可我没做过文本分类，该如何下手啊，有没有实战强一点的书籍和或者视频可以推荐啊，现在好迷茫，求大佬指点啊，不胜感激!



 2
张贝贝

2019-02-28

请问一下，CSR中的行偏移和行号有什么区别，没看明白



 1
预见

2018-12-09

“把计算过程分解为Map Redeuce任务。
    1. 遍历每个用户喜欢的物品列表；
    2. 获取该用户的相似用户列表；
    3. Map阶段：把每一个喜欢的物品 Map 成两个记录发射出去，一个是键为<相似用户ID，物品ID，1> 三元组，可以拼成一个字符串，值为<相似度>；另一个是键为 < 相似用户ID，物品ID，0>三元组，值为<喜欢程度*相似度>，其中的 1 和 0 为了区分两者。
    4. Reduce 阶段，求和后输出；
    5. <相似用户ID，物品ID,0>的值除以 < 相似用户ID，物品ID，1>的值”。
老师为什么要做这两个值的比值呢？直接对<喜欢程度*相似度>求和不行吗？

展开



 1
左瞳

2018-09-29

推荐分数的mapreduce过程的时候，两个三元对应的value是相似度和相似度*喜欢程度，既然两个已经知道了，你后面相除有啥意义？



 1
@lala0124

2018-03-22

老师，您好。我想问一下计算推荐分数的MapReduce过程的Reduce不是对相同key的value
执行某种操作吗？那这里的key是一个三元组，key相同的标准是什么？有说的不对的地方还请老师指正。

作者回复: 三元组你可以把他们拼成一个字符串。就是key了。



 1
星星之火

2018-03-19

邢老师你好。如果矩阵太稀疏，一个人只作用一两个物品的话，用协同过滤效果不太好。可以采用哪些方法解决呢？

作者回复: 先考虑把基于内容的做好。



 1
Grace

2018-03-19

本节讲的推荐计算是根据用户的日志实时更新的吗？谢谢

作者回复: 相似度计算不是，推荐部分可以。



 1
neohope

2019-12-03

试着回答一下老师的两个问题：

1、相似度计算本身如果遇到超大维度向量怎么办；
感觉超大维度的解决方式应该从业务领域出发，将维度进行切分。
比如淘宝，如果所有类型的产品都用一个维度展示是不太现实的。
直观上可以按衣服、书籍、电子产品进行维护拆分，然后分别进行推荐。

2、两两计算用户相似度遇到用户量很大怎么办
建议对用户进行聚类，对于每个类下面的用户，再计算相似度。

另外，文中mapreduce做推荐计算那里，建议增加一句：
根据计算的分值，进行排名，然后将排名高的产品推荐给用户。

展开




Geek_94b54f

2019-08-26

为老师鼓掌




Geek_3d9942

2019-07-23

增加喜欢程度的衰减，........值和喜欢行为发生时间间隔正相关即可？？？？不应该是负相关吗？




漂泊的小飘

2019-07-01

幸亏我学过人工智能课和大数据课……不然这节又看不懂了




shangqiu86

2019-04-28

之前我们组其他同事做过基于物品的协同过滤和基于用户的协同过滤效果对比，发现基于物品的协同过滤效果比较好，后面我去分析这个产品的数据的时候，发现这个众筹产品，用户行为相当稀疏，找寻到的用户的相似用户群体就很难准确，所以基于用户的协同过滤效果不好。
之后我自己实践了协同过滤算法，我发现当用户行为很稀疏的时候，很容易发生稀疏数据倾斜，举个例子，当一个用户点击了10个sku，而其中8个sku都没有被其他用户点击过，那么基于物品的协同过滤出来的时候，这个8个sku与另外两个sku的相似度就是1，也就是最高的那个值，其实这是不合理的，所以要根据数据的稀疏情况，或者进行只被一个用户点过的sku的剔除，或者改进公式，加入sku的点击用户数这个因子。老师，您觉得呢？




帅帅

2018-09-22

spark和mapreduce的编程方式完全不一样，写过原生mapreduce的人表示，用过spark后，再也没写过mapreduce了。




*Smile*~

2018-09-10

请问基于用户的协同过滤如何解决冷启动的问题呢

 1


Geek_e1c6a0

2018-05-09

老师您好，看了这篇专栏感觉收获很大。同时也有个问题，用户行为可能有很多种类，比如，点赞，评论，收藏。这时候，如果要计算用户相似度，是应该把各种行为加权求和得到一个分值用于计算，还是各种行为独立计算各自的相似度矩阵呢。如果采用加权求和的方式，确定各种行为的权重又是个麻烦的问题。
还望老师指导一下。谢谢



