极客时间-轻松学习，高效学习-极客邦

愤怒的虾干

2019-06-06

黄老师，你好，假设X'乘X结果是矩阵A，则V是A的特征向量矩阵，根据几何意义A（i,j）表示的是列向量X,i乘X,j，即电影i和电影j的用户评分乘积；由特征向量的几何意义可知，特征值最大对应的特征向量v表示受众广且评分高（即点评的人多且分数高）的电影，次之是受众广且评分一般或受众窄且评分高的电影，最后特征值最小的表示受众窄且评分低的电影。
同理XX'的特征矩阵U，当特征值最大时表示的是用户有相同审美理念（都对同一类型感兴趣且评分相近），特征值低表示用户间观影理念有较大差异。
综合上述结论，我觉得V并不能区分电影类型。比如特征值最大取出的一组电影大多是评分5且评分人数多，即受众广，第五组大多是评分是4且评分人数不如上面的，即较为受人欢迎。之所以这些数据里电影类型较为雷同，我觉得应该是受众广的电影恰好是这一类的题材导致。请老师看下我说的对吗？

展开

作者回复: 很细致的分析，确实这里的奇异向量是一个很抽象的概念，在实际中由很多因素决定，不仅仅包括电影的类型、也包括用户的口味、电影的导演、演员、制作的精良程度等等。
这里我们假设电影类型对用户的评分影响是最大的，所以最极致的情况是，用户评分时只看电影类型，不考虑其他任何因素。如果是这样，噪音是最小的，分解出来的向量也能很好的区分不同类型的电影。当然，实际情况并非如此，所你会看到结果并不是完全理想的。所以，在实际项目中，对SVD分解结果的解释，要结合具体的应用场景，你这样的分析就很好👍。
对于多个决定因素，另一种可行的处理方法是，结合行业经验，发现可能影响结果的主要因素，然后按照不同的维度分割数据，再来进行SVD分解。比如，我们发现除了电影类型之外，电影导演也很大程度上影响了评分，那么我们就可以抽取同一种电影类型，假设电影类型对评分没有影响，然后进行SVD分解，那么分解的结果可解释为不同水平导演的分组。不过，这样处理可能会导致数据量比较稀疏。



 4
qinggeouye

2019-04-22

# 优化下减少运行时间
#https://github.com/qinggeouye/GeekTime/blob/master/MathematicProgrammer/50_recomendSystem_SVD/lesson50_2.py
import pandas as pd
import numpy as np
from sklearn.preprocessing import scale

# 加载用户对电影对评分数据
df_ratings = pd.read_csv("ml-latest-small/ratings.csv")

# 获取用户对数量和电影对数量这里只取前 1/10 , 减少数据规模
user_num = int(df_ratings["userId"].max() / 10)
movie_num = int(df_ratings["movieId"].max() / 10)
print(user_num, movie_num)
df_ratings = df_ratings[df_ratings["userId"] <= user_num]
df_ratings = df_ratings[df_ratings["movieId"] <= movie_num]

# 构造用户对电影对二元关系矩阵
user_rating = np.zeros((user_num, movie_num))

# 由于用户和电影对 ID 都是从 1 开始，为了和 Python 的索引一致，减去 1
df_ratings["userId"] = df_ratings["userId"] - 1
df_ratings["movieId"] = df_ratings["movieId"] - 1
# 设置用户对电影对评分
for userId in range(user_num):
    user_rating[userId][df_ratings[df_ratings["userId"] == userId]["movieId"]] = \
        df_ratings[df_ratings["userId"] == userId]["rating"]

# 二维数组转化为矩阵
x = np.mat(user_rating)

# 标准化每位用户的评分数据每一行
x_s = scale(x, with_mean=True, with_std=True, axis=1)

# 进行 SVD 奇异值分解
u, sigma, vt = np.linalg.svd(x_s, full_matrices=False, compute_uv=True)
print("U 矩阵：", u)
print("Sigma 奇异值：", sigma)
print("V 矩阵：", vt)

# 加载电影元信息
df_movies = pd.read_csv("ml-latest-small/movies.csv")
dict_movies = dict(zip(df_movies["movieId"], df_movies["title"] + ", " + df_movies["genres"]))
print(dict_movies)

# 输出和某个奇异值高度相关的电影这些电影代表了一个主题
# (注意：向量中电影的 ID 和原始的电影的 ID 相差 1，所以在读取 dict_movies 需要使用 i+1)
print(np.max(vt[1, :]))
print(list(zip(np.where(vt[1] > 0.1)[0] + 1, vt[1][np.where(vt[1] > 0.1)],
               [dict_movies[i] for i in (np.where(vt[1] > 0.1)[0] + 1)])))

展开



 2
zzz

2019-04-21

为什么SVD对电影分解出来的奇异值是“主题“（科幻类，剧情类……），而不是电影其他的概念，毕竟SVD的输入只是用户与电影的评分数据，没有别的信息。
不过想想电影除了主题好像也没什么别的。

作者回复: 这是个很好的问题，实际上影响用户评分确实有很多，除了电影类型，还有导演、演员什么的，不过通常电影类型还是占了主要地位，这里假设主要是电影类型决定了喜好程度。如果还有很多其他主要因素，就不能简单认为SVD找出的潜在因素是电影主题



 2
Paul Shan

2019-10-22

方阵进行特征值分析以后，特征值表示坐标变换的伸缩部分，特征向量表示对应每个伸缩量对应的方向。非方阵右奇异分量对应的特征值的平方根反映的是该矩阵右乘一个列向量对应变换的伸缩量信息。非方阵左奇异分量对应的特征值的平方根反映的是该矩阵左乘一个行向量对应变换的伸缩信息。

用户-电影矩阵反映的是用户和电影的关系，经过特征向量分解以后，变成用户-主题-电影。因为左右奇异矩阵都是行列式值为1的方阵，主题对角阵也就完全反应了原来矩阵的分量大小，对角阵每个元素大小反映了主题的相对重要程度。主题分量对应的矢量又是原来用户和电影维度线性组合而成。线性组合的系数分别是左奇异阵和右奇异阵，这些系数也反应了用户和主题，以及电影和主题的权重系数（类似线性回归中的权重）。

展开



 1