颛顼
2017-12-04
中文首先要分词,分词后要解决多词一义,以及一词多义问题,这两个问题通过简单的tf-idf方法不能很好的解决,于是就有了后来的词嵌入方法,用向量来表征一个词
作者回复: 是这样的。
12
霸气芝士草莓
2018-08-20
能不能加上一些公式,用公式和文字结合来表达,感觉更清晰直观
10
lyhbit
2018-10-06
讲TF-IDF的四种变种、如果加一些图片或者例子会更好理解些
4
李沛欣
2019-08-13
TF词频:某一单词出现在某文档的次数
IDF逆文档频率:多个文档都出现同一单词的概率之倒数
二者向量化的乘积,能够反映出某词对整个文章的重要性。
采用余弦相似度等算法,能反映出多篇文章文章的相似性。
个人以为,这大概也是论文查重的原理
展开
2
guoguo 👻
2018-11-17
第一个变种那里是ln(tf)吧,log(tf)算的话值明显不对
1
东辉 (●---●...
2017-11-14
是否需要先分词
作者回复: 是的。
1
追逐繁星的孩纸~
2019-11-12
思考题,如果要把 TF-IDF 应用到中文环境中,是否需要一些预处理的步骤?
答:要的。TF表示单词频率,对中文来说,首先就需要分句,分词,分词涉及的东西就多了,准确的分词需要涉及上下文理解,歧义词、多义词、词语搭配等处理。此外,为了统一处理,可能还会涉及简繁转换。暂时只能想到这些。
Yang
2019-09-09
分词,有时候为了提高模型的效果,可能既要分词,也要分字。
庄小P
2019-05-26
学习了,了解这些算法是怎么改进的,才会有自己改进的空间
willow990
2018-02-17
你好,下面这句话我理解我点问题,能否再具体解释下,谢谢
“还有一个重要的 TF-IDF 变种,则是对查询关键字向量,以及文档向量进行标准化,使得这些向量能够不受向量里有效元素多少的影响,也就是不同的文档可能有不同的长度”
张岩kris
2017-11-18
文档到词向量的转换,语言先进行中文分词吧,不同分词算法,可能对最终的结果产生一定影响
作者回复: 对,中文分词是一个很重要的步骤。
我们在线,来聊聊吧
✕
您好,当前有专业客服人员在线,让我们来帮助您吧。
我们在线,来聊聊吧