23 | 文本分类:如何区分特定类型的新闻?
该思维导图由 AI 生成,仅供参考
文本分类系统的基本框架
1. 采集训练样本
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了利用朴素贝叶斯方法对新闻进行分类的基本原理和方法。首先,文章讨论了构建文本分类系统的基本框架,包括采集训练样本、预处理自然语言、训练模型和实时分类预测。其中,预处理自然语言包括分词、取词干和归一化以及停用词的处理。其次,文章强调了文本数据的重要属性以及如何提取特征,介绍了词包模型和分词的方法。此外,还介绍了中文分词的两种主流模型:基于字符串匹配和基于统计和机器学习。文章强调了朴素贝叶斯方法和文本处理的结合,以及如何使用建好的字典统计朴素贝叶斯方法所需的数据。最后,通过朴素贝叶斯模型进行文本的分类,文章提供了详细的技术指导和示例。整体而言,本文深入浅出地介绍了利用朴素贝叶斯方法对新闻进行分类的关键步骤和技术特点,为读者提供了清晰的技术指导。
《程序员的数学基础课》,新⼈⾸单¥68
全部留言(20)
- 最新
- 精选
- 冰冷的梦老师,我觉得这个p(c|fi,fj) = p(c|fi) * p(c|fj)怪怪的,这个是怎么推导的啊?
作者回复: 这里是假设f1和f2相互独立,所以有p(c|f1,f2)=p(c,f1,f2)/(p(f1,f2))=(p(c,f1)p(c,f2))/(p(f1)p(f2))=p(c|f1)p(c|f2)
2019-03-07932 - qinggeouyeP(政治|美国电影) = P(政治|美国) · P(政治|电影) = [ P(美国|政治) · P(政治) / P(美国) ] · [ P(电影|政治) · P(政治) / P(电影) ] = [ 0.0028% · 20% / 0.0028% ] · [ ... · 20% / 0.0032% ] “美国电影”属于其它文本分类同理。
作者回复: 是的👌
2019-03-0426 - gaoch有没有代码实现方法可以参考的?
作者回复: 一般Python或者Spark的机器学习包都有这类的实现,你可以参考。你也可以按照本文的思路实现一个基本版本
2019-10-283 - 南边文章分类的例子,有两个独立性假设,一个是朴素贝叶斯算法,针对文章分类概率和单词词频概率两个维度的独立性假设,另一个是在自然语言处理阶段,对每个单词的独立性假设,这两种假设都简化了算法的复杂性,虽然如果单词量很多的话,计算量也不小,但是相对有联动的概率影响情况,已经好很多了
作者回复: 没错
2019-11-282 - 冰冷的梦老师,上一个问题是基于这个“这里是假设f1和f2相互独立,所以有p(c|f1,f2)=p(c,f1,f2)/(p(f1,f2))=(p(c,f1)p(c,f2))/(p(f1)p(f2))=p(c|f1)p(c|f2)”,中间的等式:p(c,f1,f2)/(p(f1,f2))=(p(c,f1)p(c,f2))/(p(f1)p(f2))这个等式成立的话我理解的是p(c,f1,f2) = p(c,f1)*p(c,f2)应该是成立的,这个是怎么推导的?
作者回复: 你可以这么理解,如果f1和f2独立,那么f1不会影响f2的概率分布,包括联合概率p(c,f)和条件概率p(c|f)
2019-03-1222 - Ray请教一下,中文 NLP 除了 jieba 之外还有其他好的分词工具推荐吗?
作者回复: 有好几款,包括中科院出的,上网可以查到一些。不过没有一款最好的,各有优劣
2019-11-191 - 冰冷的梦p(c,f1,f2) = p(c,f1)*p(c,f2)这两个相等是怎么推出来的?
作者回复: 我想你说的是p(c|f1,f2) = p(c|f1)*p(c|f2) ?
2019-03-0841 - zhaimy第一张表的先验概率应该是词频/总词频,而不是数量相除吧?比如政治,应该是726898/2837891,而非20%
作者回复: 第一张表是指分类出现的概率,因此是以文章为单位来计算的。
2019-02-151 - 老师,可能我太菜,不会算。也许不是直接带公式吧。比如P(美国|军事),根据条件概率公式=P(美国*军事)/P(军事)。我不知道美国和军事是否应该看做独立。我就算了第一个P(政治|美国电影),那个P(电影|政治)我取了第三个表中出现政治所有概率求和取平均值。算的0.07125%
作者回复: 嗯,以此类推到其他类就可以了
2019-02-061 - 孙旗上面的算法只考虑了待预测分类的文本每个词是否出现,比如待预测文档内容是"中国航母",分词后套用公式可以得出他的分类建议。 但是实际应用上,这个文档内容有可能是这样的:"中国航母,中国导弹,中国核弹,中国制造" 这里中国这个单词不止出现了一次,还要根据上述公式,拆分为: P(政治|中国)*P(政治|航母)*P(政治|导弹)*P(政治|核弹)*P(政治|制造) 来计算么?这样的计算方式合理么,或者有可以将文档各个单词出现次数也考虑进去的分类方法么?
作者回复: 这里所考虑的,tfidf机制有所涉及,不过那不是概率模型。朴素贝叶斯可以考虑次数,就是累乘
2022-07-20归属地:美国