043 | 文档理解第一步：文档分类

洪亮劼



该思维导图由 AI 生成，仅供参考

我们在前几周的专栏里讲解了最经典的信息检索（Information Retrieval）技术以及基于机器学习的排序学习算法（Learning to Rank），并且花了一定的时间分享了查询关键字理解（Query Understanding）这一关键搜索组件的核心技术要点。上周，我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。
这周我们的分享将转移到搜索的另外一个重要部件：文档理解（Document Understanding）。也就是从文档中抽取各种特性，来帮助检索算法找到更加相关的文档。
文档理解最基本的一个步骤就是给文档分类（Classification），看这些文档表达什么类别的信息。今天我就来和你聊一聊文档分类的一些基本概念和技术，让你对这方面的开发与研究有一个基本认识。
文档分类的类型如果我们把文档分类看做一个监督学习任务的话，那么在各式应用中就经常使用以下几种类型的文档分类。
第一个类别就是二元分类，或者称为二分文档分类，目的就是把文档分成两种不同的类别。比如，把文档分成“商业类”或者“非商业类”。
第二个类别自然就是多类分类，也就是判断文档是否属于好几种不同类别中的某一个。比如，把文档划归为“艺术”、“商业”、“计算机”或者“运动”类别中的某一类。
当然，在多类分类的下面，我们还可以分三个小类别。
第一个小类别，是“多类 - 单标签 - 硬分类”（Multiclass，Single-Label，Hard Classification）。什么意思呢？就是说每一个文档只能在多类分类问题中被赋予唯一的标签，并且所有互相的类别是不兼容的。
第二个小类别，就是“多类 - 多标签 - 硬分类”（Multiclass，Multilabel，Hard Classification），也就是说每一个文档可以被认为属于多个类别，然而每个这样的分类都是唯一确定的。
最后一个小类别则是“多类 - 软分类”（Multiclass，Soft Classification），也就是认定每个文档以概率的形态属于多个类别。
在这个分类基础上，还有一种分类的方法，那就是可以把所有的类别看做一个平面的结构（Flat）或者是有组织结构的。通常情况下，如果把文档分类到一个层次组织（Hierarchical Structure）里就叫“层次分类”（Hierarchical Classification）。在这样的情况下，一个文档同时属于这个层次结构上从根节点到叶子节点的所有类别。一般来说，上层节点相对于下层节点更加抽象。
文档分类经典特性了解了文档分类的基本类型之后，我们接着来讨论文档分类所用到的经典特性。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

文档分类在现代搜索技术中扮演着至关重要的角色。本文介绍了文档分类的类型、特性和相关算法，为读者提供了对文档分类的基本认识和技术要点。首先，文档分类类型包括二元分类、多类分类以及层次分类，为不同需求提供了灵活的选择。其次，文档分类所用到的经典特性包括词袋模型、N元语法、递归神经网络等，这些特性为文档分类提供了丰富的信息基础。此外，文章还介绍了文档分类相关的算法，包括对数几率回归、支持向量机、朴素的贝叶斯分类器以及深度学习模型等，展示了多样化的应用选择。最后，关系学习的提及，即利用文档与文档之间的关系来提高文档的分类效果，为读者展示了文档分类的进阶应用。总的来说，本文通过介绍文档分类的类型、特性和相关算法，为读者提供了全面的文档分类知识概览，为进一步深入学习和讨论提供了基础。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(4)

最新
精选

鬼猫猫
每篇都做一下思维导图当笔记
作者回复: 谢谢支持。
2017-12-13

3
georgesuper GoodTOGreater
要是能在每篇技术文档后附上代码Demo就完美了
作者回复: 这些文档主要起抛砖引玉的作用，不过谢谢建议。
2017-12-12


sky
利用深度学习把图片的特征学习出来，再把这些特征放到分类算法里面去训练，这样可以吗
2018-06-07

2
买桃者
先将文档的每段文字转化成一个词向量，然后按照顺序和图片转化的向量进行连接，一起作为分类算法的输入，这样做是不是可以保留语义信息和结构信息？
2019-05-04



收起评论