• 冰冷的梦
    2019-03-07
    老师,我觉得这个p(c|fi,fj) = p(c|fi) * p(c|fj)怪怪的,这个是怎么推导的啊?

    作者回复: 这里是假设f1和f2相互独立,所以有p(c|f1,f2)=p(c,f1,f2)/(p(f1,f2))=(p(c,f1)p(c,f2))/(p(f1)p(f2))=p(c|f1)p(c|f2)

     1
     14
  • 冰冷的梦
    2019-03-12
    老师,上一个问题是基于这个“这里是假设f1和f2相互独立,所以有p(c|f1,f2)=p(c,f1,f2)/(p(f1,f2))=(p(c,f1)p(c,f2))/(p(f1)p(f2))=p(c|f1)p(c|f2)”,中间的等式:p(c,f1,f2)/(p(f1,f2))=(p(c,f1)p(c,f2))/(p(f1)p(f2))这个等式成立的话我理解的是p(c,f1,f2) = p(c,f1)*p(c,f2)应该是成立的,这个是怎么推导的?

    作者回复: 你可以这么理解,如果f1和f2独立,那么f1不会影响f2的概率分布,包括联合概率p(c,f)和条件概率p(c|f)

    
     2
  • qinggeouye
    2019-03-04
    P(政治|美国电影)
    = P(政治|美国) · P(政治|电影)
    = [ P(美国|政治) · P(政治) / P(美国) ] · [ P(电影|政治) · P(政治) / P(电影) ]
    = [ 0.0028% · 20% / 0.0028% ] · [ ... · 20% / 0.0032% ]

    “美国电影”属于其它文本分类同理。
    展开

    作者回复: 是的👌

    
     2
  • gaoch
    2019-10-28
    有没有代码实现方法可以参考的?

    作者回复: 一般Python或者Spark的机器学习包都有这类的实现,你可以参考。你也可以按照本文的思路实现一个基本版本

    
     1
  • 阿敏叔叔
    2019-09-24
    老师,请问如果采用神经网络的方法来实现NLP的话,先使用词嵌入Word2Vec将文本转换为词向量,再将向量送入神经网络如RNN或LSTM,输出端即可得到文本的分类和提取的关键属性,进而用于后续的问题匹配或语义搜索了,不理解是否到位?

    作者回复: 大意是对的,WordVec主要是发掘词之间的语义关系,这个我找机会补上

    
     1
  • Paul Shan
    2019-09-03
    文章的分类是基于文中的单词信息,可以看作是单词对分类的投票,某一分类的单词越多,属于这个分类的可能性越大。为了达成这个目标,先得把文章分词统计,这是分离出单词并分类单词的过程,这一步统计出来各类文章出现的概率和每类文章的各种单词出现的概率,有了这两类数据,就可以计算出单词和分类的联合概率,有了联合概率就可以求出每个单词为条件,判断文章类别的概率。假定单词是独立的,每个单词就为类别投票,得票多的类别胜出。这里的得票是独立的条件概率,不是求和运算而是乘积,可以用对数的方法处理,这样即避免了概率过小的问题,也把乘法简化为加法,同时还保证了相对大小不变。
    
     1
  • zhaimy
    2019-02-15
    第一张表的先验概率应该是词频/总词频,而不是数量相除吧?比如政治,应该是726898/2837891,而非20%

    作者回复: 第一张表是指分类出现的概率,因此是以文章为单位来计算的。

    
     1
  • 
    2019-02-06
    老师,可能我太菜,不会算。也许不是直接带公式吧。比如P(美国|军事),根据条件概率公式=P(美国*军事)/P(军事)。我不知道美国和军事是否应该看做独立。我就算了第一个P(政治|美国电影),那个P(电影|政治)我取了第三个表中出现政治所有概率求和取平均值。算的0.07125%

    作者回复: 嗯,以此类推到其他类就可以了

    
     1
  • 南边
    2019-11-28
    文章分类的例子,有两个独立性假设,一个是朴素贝叶斯算法,针对文章分类概率和单词词频概率两个维度的独立性假设,另一个是在自然语言处理阶段,对每个单词的独立性假设,这两种假设都简化了算法的复杂性,虽然如果单词量很多的话,计算量也不小,但是相对有联动的概率影响情况,已经好很多了

    作者回复: 没错

    
    
  • Ray
    2019-11-19
    请教一下,中文 NLP 除了 jieba 之外还有其他好的分词工具推荐吗?

    作者回复: 有好几款,包括中科院出的,上网可以查到一些。不过没有一款最好的,各有优劣

    
    
  • 💢 星星💢
    2019-11-06
    老师可以举个例子说明一下小数的log变换么。我在上一篇文章也看到老师说了这句话。但是我不得要领。也希望知道的同学帮我解答一下。

    作者回复: 你好,具体是小数变化的哪里不懂?

     3
    
  • Ronnyz
    2019-10-09
    P(政治|美国电影)=P(政治|美国,电影)=P(政治|美国)*P(政治|电影)

    =[P(美国|政治)*P(政治)/P(美国)]*[P(电影|政治)*P(政治)/P(电影)]
    
    
  • Jeson
    2019-04-11
    很好,看其他材料都没提分类结果是个相对值,这里还提了原因,最后还要进行一个归一化处理吧

    作者回复: 是的,为了可比较,通常还可以进行归一化

    
    
  • 冰冷的梦
    2019-03-08
    p(c,f1,f2) = p(c,f1)*p(c,f2)这两个相等是怎么推出来的?

    作者回复: 我想你说的是p(c|f1,f2) = p(c|f1)*p(c|f2) ?

    
    
我们在线,来聊聊吧