06 | jieba分词：如何基于感情色彩进行单词数量统计？

尹会生



该思维导图由 AI 生成，仅供参考

你好，我是尹会生。
在涉及运营、市场的工作中，我们经常需要根据产品评论的情感分析，来了解某一产品的口碑。所谓的情感分析，就是指根据用户对产品的评论，分析出用户对产品的喜好程度。
最简单的，我们会区分产品的评价是正向还是负向的，然后根据反馈结果改变产品的特性。稍微复杂一点的，我们会根据情感色彩将产品的评价关键词提取出来，进行统计和分类（用于更深入的分析产品）。
如果靠人工对产品评价进行辨析，有很大的局限性：一个是不够公平，因为每个人对词语感情色彩的理解并不是完全一致的；另一个是产品评价有很多，而且还会不定期增加，人工分析很难保证及时性。
因此，在进行词语的情感分析时，我通常都会使用 Python 的 jieba 库，来自动化实现文本情感分析功能。一般需要经过三个步骤，分别是分词、优化分词结果和情感分析。
那我就先带你看看为什么要进行分词，以及如何进行分词操作。
如何分词？要想判断一段话表达的情感是正向还是负向，就需要根据这句话中的关键词来得到情感的倾向。例如一段话中出现了“开心”“高兴”“物超所值”等正向的词语，我们就可以认定这条产品的评价是偏正向的。相反，出现“不喜欢”“差”等词语，评价就是偏负向的。
但是，要想从一句话中将这些表达情感的词一个一个找出来，就需要依靠专业的工具把一句话根据语义划分成多个词，再把表达情感的词语提取出来，进行情感分析。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了使用Python的jieba库进行自动化文本情感分析的过程。通过分词将句子根据语义划分成多个词，再提取表达情感的关键词进行情感分析。jieba库采用基于词库的角度对文章进行自动分词，通过动态规划算法查找最大概率路径，实现自动化分词。优化分词结果主要包括移除标点符号和删除与情感无关的助词、名词等。文章通过实际代码演示了jieba库的分词功能和优化分词结果的方法，为读者提供了实用的技术指导。同时，结合snownlp库进行情感分析，通过Bayes模型实现情感倾向的分类，进而判断产品评价的正向或负向结果。读者可以通过本文了解到如何实现批量产品评论的自动语义情感分析，以及如何根据评价的数值范围对评论进行分组，统计每组包含多少个评价。最后，文章提供了关键步骤和注意事项，包括分词、优化分词结果、语义情感分析等方面的技术指导，帮助读者掌握相关技能并持续优化产品。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《Python 自动化办公实战课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(4)

最新
精选

陈东
老师能分享你词性统计的思路吗？
作者回复: 统计词性的一般思路是：获取数据、数据预处理(去掉各种符号、空格)、词性标注(包含了jieba分词)、词频统计、数据再次处理(合并，计数，对统计结果格式调整)、数据保存到文件(一般为Excel) 按照这一顺序来实现词性统计
2021-03-19
2
2
Soul of the Dragon
有个问题请教一下老师，我在思考题中用代码统计各种词性的数量，但每次统计的结果都不对，和实际数量相去甚远，不知道是什么原因。
作者回复: 你好, 方便描述一下具体统计的是哪种词性吗? 导致这种结果的可能有连个原因, 一个是自动分词分的不够准确,导致了识别出现误差,还有一种原因是统计词性的英文缩写指定的不正确,例如名词就包含了很多详细分类,比如名词分为以下子类： n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名可以搜索 jieba词性表关键字对照分词的结果进行查看
2021-02-24

1
笨笨
jieba.suggest_freq(("中", "将"), tune = True)老师这句代码应该放在哪里使用呢？是放在words2=jieba.cut(words1)后使用吗?
作者回复: 是的，另外可以在读者群里和我交流，因为留言中有大量打卡信息，问题有可能被淹没在打卡信息里被我忽略，在翻看视频是才发现有这条问题
2023-06-27归属地：北京


ifelse
学习打卡
2023-07-05归属地：浙江



收起评论