作者回复: 👍🏻👍🏻👍🏻👍🏻👍🏻👍🏻 ^^ 加油~
作者回复: 👍🏻👍🏻👍🏻^^
作者回复: hello,林于翔。谢谢留言。 idf的计算,实际上就是“包含该词语的文件的数目除以总文件数目”,本身是没有+1操作的,+1是为了防止出现分母为0的情况而做的平滑。实际情况下,语料的数量很庞大,所以“分母为零”的情况要远多于“分母+1=分子”的情况,所以就成了我们更多的使用普遍形式,即+1。而在文章的代码例子中,我特意选择的就是后面的情况,意在告诉大家,写代码要根据实际情况来进行边缘条件的判断。
作者回复: 好的,多谢。我看一下。👍🏻👍🏻👍🏻👍🏻👍🏻👍🏻
作者回复: 你好,感谢留言。 具体是提示什么错误呢?
作者回复: tf-idf本身是基于统计值的一个过程,所以能够处理极大量的文档。但是在另一方面,大量的文档会带来更多的term,但是这个term量在单一语言中也是有一个理论上限的,并不会特别巨大。放到更广泛的情况下,例如你用tf-idf做nlp之外的的任务,那么term的量就会变得非常非常大,这个时候你就需要对数据做采样逼近,或者使用分布式等方法进行统计。