• 颛顼
    2017-12-04
    中文首先要分词,分词后要解决多词一义,以及一词多义问题,这两个问题通过简单的tf-idf方法不能很好的解决,于是就有了后来的词嵌入方法,用向量来表征一个词

    作者回复: 是这样的。

    
     12
  • 霸气芝士草莓
    2018-08-20
    能不能加上一些公式,用公式和文字结合来表达,感觉更清晰直观
    
     10
  • lyhbit
    2018-10-06
    讲TF-IDF的四种变种、如果加一些图片或者例子会更好理解些
    
     4
  • 李沛欣
    2019-08-13
    TF词频:某一单词出现在某文档的次数
    IDF逆文档频率:多个文档都出现同一单词的概率之倒数

    二者向量化的乘积,能够反映出某词对整个文章的重要性。

    采用余弦相似度等算法,能反映出多篇文章文章的相似性。

    个人以为,这大概也是论文查重的原理
    展开
    
     2
  • guoguo 👻
    2018-11-17
    第一个变种那里是ln(tf)吧,log(tf)算的话值明显不对
    
     1
  • 东辉 (●---●...
    2017-11-14
    是否需要先分词

    作者回复: 是的。

    
     1
  • 追逐繁星的孩纸~
    2019-11-12
    思考题,如果要把 TF-IDF 应用到中文环境中,是否需要一些预处理的步骤?
    答:要的。TF表示单词频率,对中文来说,首先就需要分句,分词,分词涉及的东西就多了,准确的分词需要涉及上下文理解,歧义词、多义词、词语搭配等处理。此外,为了统一处理,可能还会涉及简繁转换。暂时只能想到这些。
    
    
  • Yang
    2019-09-09
    分词,有时候为了提高模型的效果,可能既要分词,也要分字。
    
    
  • 庄小P
    2019-05-26
    学习了,了解这些算法是怎么改进的,才会有自己改进的空间
    
    
  • willow990
    2018-02-17
    你好,下面这句话我理解我点问题,能否再具体解释下,谢谢
    “还有一个重要的 TF-IDF 变种,则是对查询关键字向量,以及文档向量进行标准化,使得这些向量能够不受向量里有效元素多少的影响,也就是不同的文档可能有不同的长度”
    
    
  • 张岩kris
    2017-11-18
    文档到词向量的转换,语言先进行中文分词吧,不同分词算法,可能对最终的结果产生一定影响

    作者回复: 对,中文分词是一个很重要的步骤。

    
    
我们在线,来聊聊吧