关键词匹配技术是基于特定关键词是否存在的判断,可以看作一个关于布尔类型向量的的函数。
向量空间方法的四个步骤
1.将文章转化成向量空间的一个向量。
2.将查询转化成向量空间的一个向量,检查文章向量和查询向量的相关性,例如求余弦。
3.按照相关性给文档排序,返回相关性高的文档
4.评估相关性
构建向量空间
向量空间的一个维度是某一单词
维度上的值,简单的做法就是单词的次数,也就是单词出现的次数代表了文章类型信息。这里从0到1,影响较大,1到2,影响就少了一些,这也符合实际情况。但是,某些单词对某些文章特别有用,例如阿司匹林就和医学文章相关和其他文章无关,而某些其他词例如中国,反应文档的信息量就很少。为了把这个因素也考虑进来,统计这个词的唯一程度,用逆文档频率调整词频。
文档的向量用词频+逆文档频率
查询的向量用稀疏词频+文档逆文档频率
计算余弦和排序
向量构造需要O(m)的复杂度,m为向量维度
n篇文章需要O(m*n)的复杂度
新增文档会影响逆文档频率,全部都得重算!应该有些中间变量例如词频可以记录下来,重算得时候用的上。
展开