112 | 什么是文档情感分类？

洪亮劼



该思维导图由 AI 生成，仅供参考

到目前为止，我们讲完了对话系统的基础知识。一般来说，对话系统分为“任务型”和“非任务型”这两种基本类型。针对任务型对话系统，我们重点介绍了其各个组件的任务，以及这些组件都有哪些模型给予支撑。针对非任务型对话系统，也就是“聊天机器人”，我们主要介绍了如何利用深度学习技术来对一个聊天机器人进行建模，以及非任务型对话系统所面临的挑战都有哪些。
今天，我们转入文本分析的另外一个领域，同时也是在实际系统中经常会使用的一个子领域，那就是文本“情感分析”（Sentiment Analysis）。所谓情感分析，就是指我们要针对一段文本来判断这段文本的文字“色彩”，到底是褒义，还是贬义，到底是抒发了什么情感。
文本情感分析是一个非常实用的工具，比如，我们需要分析用户对于商品的评价带有什么样的情感，从而能够更好地为商品的推荐和搜索结果服务。再比如，通过文本的情感分析，我们可以了解到用户针对某一个时事的观点异同，以及观点分歧在什么地方，从而能够更加清晰地了解新闻的舆情动态。
今天，我们首先从最基础的文档情感分类（Document Sentiment Classification）这个问题说起。
基于监督学习的文档情感分类文档情感分类属于文本情感分析中最基本的一种任务。这种任务的假设是，一段文本的作者通过这段文本是想对某一个“实体”（Entity）表达一种情绪。这里的实体其实包括很多种类型的对象，比如可能是商品，某个事件，也可能是某个人物。我们这里讨论的文本单元可以是一个文档，也可以是一个句子等其他的文本段落。
值得注意的是，我们在这一类任务中，限制一个文本单元只表达，或者主要表达一种情感。很明显，这种假设是比较局限的。一般来说，在实际的应用中，一个文本单元，特别是比较长的单元例如文章，则往往包含多于一种的情绪。因此，我们可以看到文档情感分类其实是一种简化了的情感分析任务。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

文档情感分类是文本情感分析中的基础任务之一，旨在判断一段文本的情感色彩，是褒义还是贬义，以及表达了何种情感。这一任务对于商品评价、舆情分析等具有实际应用意义。文章首先介绍了基于监督学习的文档情感分类，通过训练集学习分类器或回归模型，对未知数据进行情感预测。在此过程中，特性的选取至关重要，常用的特性包括词频、TF-IDF词权重法、词类和情感词汇等。同时，文章还提及了传统的文字分类器，如朴素贝叶斯分类器和支持向量机。其次，文章探讨了基于非监督学习的文档情感分类，通过设计打分机制对文档进行情感分类，无需显式学习分类器或提前收集标签数据。这种方法在获取大量标签信息困难的情况下具有一定的实用性。最后，文章提出了一个思考题，即如何将文档情感分类任务扩展到针对多种实体多种情感的分析。整体而言，本文深入浅出地介绍了文档情感分类的基本技术要点，为读者提供了对该领域的全面了解。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

paradox
初学者，有个突然的想法：可不可以先通过找出具有一些高信息量的词，从而得到这段文本不同的主题，然后把主题和文本放在一起在针对这个主题去预测情感，是不是就是多种实体多种情感的分析呢？
2019-01-06



收起评论