极客时间-轻松学习，高效学习-极客邦

刑无刀

2019-02-18

讲得好！对推荐系统感兴趣，可以订阅《推荐系统36式》，哈哈哈哈哈哈哈。

编辑回复: 给刑无刀老师打call！对这节内容感兴趣可以订阅《推荐系统36式》😄

 1

 45
許敲敲

2019-01-14

具体的基于用户相似来推荐的话，如果每个用户喜欢的歌曲数量很大，或者说用户数也很多的情况下，也就是考虑到老师画的表行列都很多，是不是相当于矩阵的维数很大，这样找到两个向量的距离是有什么trick嘛？或者该用什么算法计算比较好？

作者回复: 你指出的这点很好，我会晚点再写一下，补充到文章里。

 6

 13
莫弹弹

2019-01-14

高级篇的人越来越少了……
我觉得，推荐可以看成一种选优，所以思维上可以跳出“推荐”两个字，进而扩展“相似”“热门”等等这类场景
例如搜索引擎关键词拼写错误的推荐词，导航app的推荐路径，电商的热门商品等，都可以用上推荐算法



 11
Kudo

2019-01-14

推荐系统（Recommender System）是典型的机器学习应用场景。其核心就是通过算法得到用户偏好向量以及内容向量，两个向量的内积即为用户对内容的的评分预测（即用户对某内容的喜好程度）。推荐学习算法本质上就是学习这两个向量的过程。
通常有两种方法：
1. 已知内容向量，学习用户偏好向量的方法就是基于内容的推荐算法（content-based）；
2. 用户偏好向量和内容向量都未知，则适合使用联合过滤算法（collaborative filtering）同时学习两个向量。



 8
李冲

2019-09-17

快追到课程结束了，从另外一个角度讲一下自己的想法，如有不适还请海涵。

推荐系统加速了系统价值的开发，但领域的价值是有限的，必须不停的挖掘新领域来做大蛋糕。不管是消费用户的钱包，时间，还是情怀，都是有边际效应的。企业前期努力成长，后期做大了在存量市场里为了效益可能会有失偏驳。

话说回来像王争老师这样走心的真少见，为了让用户变得更优秀来做产品值得赞赏。目前我就主动给同事和朋友推荐过王争和丁奇老师的课程，以后看的多了肯定会发现更多值得推荐的老师和课程。

极客时间确实是一股清流，真正有志于而且能够布道的老师可以把自己的理解问题和思考对策的方式授人以渔。希望以后能够碰到更多优秀的老师做出这样的课程，为行业出力。

展开

作者回复: 感谢认可，今后我还会持续高质量输出，吹个牛逼，希望能为中国的it行业贡献一份力量：）

 1

 5
danvid

2019-05-29

我觉得用余弦近似度来判断相似程度更合理些



 4
alic

2019-01-14

其实就和nlp中计算两个句子之间的相似度类似。



 3
静静聆听

2019-09-29

老师，看了您的很多算法，我都很喜欢，但是我只是一个java后端研发，感觉学了没有用武之地，但因为已经工作几年了，又不可能再去转做算法工程师，看了喜欢却用不上，这种感觉很扎心啊，有办法让我们这种人把算法使用起来么

作者回复: 说实话有点难啊，关注我的公号众：小争哥，我抽空写篇文章说说。

 3

 2
orcababyface

2019-01-18

2.基于歌曲做推荐
问题：老师的方案的逻辑是：人们对一首歌喜爱程度越一致，那么两首歌越相似。这不是很好吧？难道现在一般音乐app基于歌曲推荐都是这么做的？



 2
Peter Cheng

2019-01-14

基于相似用户做推荐，这一栏里。如果只有欧几里得距离作比较，应该不准确吧，用户，分享和收藏的是不同的歌曲，但是欧几里得距离相近。



 2
王楚然

2019-06-21

弱弱的问，向量空间是求相似度的，朴素贝叶斯是分类的，但是分类到一起，是不是可以说相似度高？相似度高的，可不可以归为同一类？这俩方法算是解决同问题的方法吗？如果是有什么对比呢？如果不是为啥不是呢？

作者回复: 相似度可以归为一类。你如果对这方面感兴趣的话，可以看下机器学习相关的书籍。



 1
yohann

2019-01-15

越到后面越难理解，非科班的孩子好忧桑。一步一步来吧！



 1
李皮皮皮皮皮

2019-01-14

抱歉老师，我之前可能理解有点偏差，判断两首歌曲是否是同一类型，向量是横向构造的。



 1
yongxiang

2019-01-14

还可以用来推荐喜欢的商品



 1
注定非凡

2020-02-03

算法解析要解决这个问题，不需要特别高深的理论。解决思路的核心思想非常简单、直白，用两句话就能总结出来。

找到跟你口味偏好相似的用户，把他们爱听的歌曲推荐给你；
找出跟你喜爱的歌曲特征相似的歌曲，把这些歌曲推荐给你。1. 基于相似用户做推荐

一：如何找到跟你口味偏好相似的用户呢？
    核心思路：把跟你听类似歌曲的人，看做口味相似的用户
    方案：我们只需要遍历所有的用户，对比每个用户跟你共同喜爱的歌曲个数，并且设置一个阈值，如果你和某个用户共同喜爱的歌曲个数超过这个阈值，我们就把这个用户看作跟你口味相似的用户，把这个用户喜爱但你还没听过的歌曲，推荐给你

二：如何定义用户对某首歌曲的喜爱程度呢？
    核心思路：通过用户的行为，来定义这个喜爱程度。给每个行为定义一个得分，得分越高表示喜爱程度越高
    方案：如果把每个人对每首歌曲的喜爱程度表示出来，这样某个人对某首歌曲是否喜爱，不再用“1”或者“0”来表示，而是对应一个具体的分值。

三：有了用户对歌曲的喜爱程度的对应表之后，如何来判断两个用户是否口味相似呢？
    不能在使用简单的计数来统计两个用户之间的相似度，需要使用另一个工具：欧几里得距离，来进行相似度度量

欧几里得距离（Euclidean distance）
欧几里得距离是用来计算两个向量之间的距离的。这个概念中有两个关键词，向量和距离
类比一维、二维、三维的表示方法，K 维空间中的某个位置，我们可以写作（ X
1
， X
2
， X
3
，…， X
K
）。这种表示方法就是向量（vector）。
那如何计算两个向量之间的距离呢？
这个计算公式就是欧几里得距离的计算公式：

我们把每个用户对所有歌曲的喜爱程度，都用一个向量表示。我们计算出两个向量之间的欧几里得距离，作为两个用户的口味相似程度的度量。2. 基于相似歌曲做推荐

一：如何判断两首歌曲是否相似呢？
    对于计算机来说，判断两首歌曲是否相似，需要通过量化的数据来表示。
二：应该通过什么数据来量化两个歌曲之间的相似程度呢？
    方案一：
    对歌曲定义一些特征项，计算每个歌曲的一个特征项向量。基于特征项向量计算两个歌曲之间的欧几里得距离。欧几里得距离越小，表示两个歌曲的相似程度越大。
    但是，这个方案需要能够找到足够多，并且能够全面代表歌曲特点的特征项，
    除此之外，还要人工给每首歌标注每个特征项的得分，工作量巨大
    此外，人工标注有很大的主观性，也会影响到推荐的准确性

    方案二：
    如果喜欢听的人群都是差不多的，那侧面就可以反映出，这两首歌比较相似。每个用户对歌曲有不同的喜爱程度，依旧通过上一个解决方案中定义得分的标准，来定义喜爱程度。

    这个与基于相似用户推荐中的图几乎一样。只不过这里把歌曲和用户主次颠倒了。
    基于相似用户的推荐是针对每个用户，将对各个歌曲的喜爱程度作为向量。
    基于相似歌曲的推荐思路中，针对每个歌曲，将每个用户的打分作为向量。

有了每个歌曲的向量表示，通过计算向量之间的欧几里得距离，来表示歌曲之间的相似度总结引申
实际上，这个问题是推荐系统（Recommendation System）里最典型的一类问题。算法的强大之处，利用简单的向量空间的欧几里得距离，就能解决如此复杂的问题。
实践中遇到的问题还有很多，比如冷启动问题，产品初期积累的数据不多，不足以做推荐等等

展开




短迪大魔王

2020-02-01

先说如果矩阵过大怎么算，矩阵维度过大会有一个致命问题，就是数据太稀疏了，矩阵里0太多了。所以比较常见的矩阵处理方法是矩阵分解，mn的矩阵分解mk，kn的矩阵，k认为是隐语义，对分数高的进行推荐。另外既然是求距离，需要让各个维度数据归一化，否则，本来值大就比其他特征重要了，求解失败。在老师的这个例子不归一是合理的，因为业务上认为这个权重是合理的，一般是产品给的，技术自己定锅背不起啊。

另外，每次都是离线计算完再做推荐，或者准实时，不一定是实时的，而矩阵运算是并行的，不是循环，所以海量用户也不慢甚至非常快。如果用gpu做矩阵运算那快的飞起来。我们用的淘宝，每个物品的推荐都是离线算好的，大家喜好的集合就是这些。新用户推最火的。

老师说的标注的问题真是工业界大难题，标注成本太高，还不能保证一定有效果，时间长。到deadline没输出内心就崩了，若然用每个人评价做特征是牵强点，思考一下也不是很合理，但是也是一个能产出的方案。这时候最好评价的人多一些，太少了有比较大偏差。

另外，可以构建更合适的信息特征，并且构建更合理的约束的神经网络比如时序等，介入粗召回和精排列让线上效果速度跟得上

展开




WolvesLeader

2020-01-06

以为大学学的高等数学在工作当中没毛用。现在看到了一个小知识点被推荐系统用到了。




阿杜

2019-12-27

推荐算法，利用相似度推荐，欧几里得距离。




乾坤瞬间

2019-11-29

推荐算法的核心是计算相似度，推荐一个人可能最会关注并愿意下单的开始用，这是一种实实在在能够转换为物质的生产力模型。同时计算相似度的场景个人认为，比如文章分类，图片识别的应用场景




美美

2019-11-17

同问海量用户，这个向量维度太特么高了，老师有空讲讲么

作者回复: 课程已经结束了暂时不会了



