Python自动化办公实战课
尹会生
前游戏公司技术总监,前新浪网研发中心技术经理
立即订阅
1940 人已学习
课程目录
已更新 13 讲 / 共 33 讲
0/4登录后,你可以任选4讲全文学习。
课前必读 (2讲)
开篇词 | 重复工作这么多,怎样才能提高工作效率?
免费
导读|入门Python的必备知识
“输入”模块:不同文件类型的批量合并和拆分问题 (3讲)
01 | 拆分与合并:如何快速地批量处理内容相似的Excel?
02|善用Python扩展库:如何批量合并多个文档?
03|图片转文字:如何提高识别准确率?
春节特别放送 (3讲)
春节特别放送1|实体水果店转线上销售的数据统计问题
春节特别放送2|用自顶至底的思路解决数据统计问题
春节特别放送3|揭晓项目作业的答案
“运算”模块:扩展常用的统计、搜索和排序功能 (5讲)
04 | 函数与字典:如何实现多次替换
05 | 图像处理库:如何实现长图拼接?
06 | jieba分词:如何基于感情色彩进行单词数量统计?
07|快速读写文件:如何实现跨文件的字数统计?
08|正则表达式:如何提高搜索内容的精确度?
Python自动化办公实战课
15
15
1.0x
00:00/00:00
登录|注册

06 | jieba分词:如何基于感情色彩进行单词数量统计?

尹会生 2021-02-23
你好,我是尹会生。
在涉及运营、市场的工作中,我们经常需要根据产品评论的情感分析,来了解某一产品的口碑。所谓的情感分析,就是指根据用户对产品的评论,分析出用户对产品的喜好程度。
最简单的,我们会区分产品的评价是正向还是负向的,然后根据反馈结果改变产品的特性。稍微复杂一点的,我们会根据情感色彩将产品的评价关键词提取出来,进行统计和分类(用于更深入的分析产品)。
如果靠人工对产品评价进行辨析,有很大的局限性:一个是不够公平,因为每个人对词语感情色彩的理解并不是完全一致的;另一个是产品评价有很多,而且还会不定期增加,人工分析很难保证及时性。
因此,在进行词语的情感分析时,我通常都会使用 Python 的 jieba 库,来自动化实现文本情感分析功能。一般需要经过三个步骤,分别是分词、优化分词结果和情感分析
那我就先带你看看为什么要进行分词,以及如何进行分词操作。

如何分词?

要想判断一段话表达的情感是正向还是负向,就需要根据这句话中的关键词来得到情感的倾向。例如一段话中出现了“开心”“高兴”“物超所值”等正向的词语,我们就可以认定这条产品的评价是偏正向的。相反,出现“不喜欢”“差”等词语,评价就是偏负向的。
但是,要想从一句话中将这些表达情感的词一个一个找出来,就需要依靠专业的工具把一句话根据语义划分成多个词,再把表达情感的词语提取出来,进行情感分析。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《Python自动化办公实战课》,如需阅读全部文章,
请订阅文章所属专栏
立即订阅
登录 后留言

精选留言(1)

  • Soul of the Dragon
    有个问题请教一下老师,我在思考题中用代码统计各种词性的数量,但每次统计的结果都不对,和实际数量相去甚远,不知道是什么原因。

    作者回复: 你好, 方便描述一下具体统计的是哪种词性吗? 导致这种结果的可能有连个原因, 一个是自动分词分的不够准确,导致了识别出现误差,还有一种原因是统计词性的英文缩写指定的不正确,例如名词就包含了很多详细分类,比如
    名词分为以下子类:
    n 名词
    nr 人名
    nr1 汉语姓氏
    nr2 汉语名字
    nrj 日语人名

    可以搜索 jieba词性表 关键字对照分词的结果进行查看

    2021-02-24
收起评论
1
返回
顶部