043 | 文档理解第一步:文档分类
洪亮劼
该思维导图由 AI 生成,仅供参考
我们在前几周的专栏里讲解了最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank),并且花了一定的时间分享了查询关键字理解(Query Understanding)这一关键搜索组件的核心技术要点。上周,我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。
这周我们的分享将转移到搜索的另外一个重要部件:文档理解(Document Understanding)。也就是从文档中抽取各种特性,来帮助检索算法找到更加相关的文档。
文档理解最基本的一个步骤就是给文档分类(Classification),看这些文档表达什么类别的信息。今天我就来和你聊一聊文档分类的一些基本概念和技术,让你对这方面的开发与研究有一个基本认识。
文档分类的类型
如果我们把文档分类看做一个监督学习任务的话,那么在各式应用中就经常使用以下几种类型的文档分类。
第一个类别就是二元分类,或者称为二分文档分类,目的就是把文档分成两种不同的类别。比如,把文档分成“商业类”或者“非商业类”。
第二个类别自然就是多类分类,也就是判断文档是否属于好几种不同类别中的某一个。比如,把文档划归为“艺术”、“商业”、“计算机”或者“运动”类别中的某一类。
当然,在多类分类的下面,我们还可以分三个小类别。
第一个小类别,是“多类 - 单标签 - 硬分类”(Multiclass,Single-Label,Hard Classification)。什么意思呢?就是说每一个文档只能在多类分类问题中被赋予唯一的标签,并且所有互相的类别是不兼容的。
第二个小类别,就是“多类 - 多标签 - 硬分类”(Multiclass,Multilabel,Hard Classification),也就是说每一个文档可以被认为属于多个类别,然而每个这样的分类都是唯一确定的。
最后一个小类别则是“多类 - 软分类”(Multiclass,Soft Classification),也就是认定每个文档以概率的形态属于多个类别。
在这个分类基础上,还有一种分类的方法,那就是可以把所有的类别看做一个平面的结构(Flat)或者是有组织结构的。通常情况下,如果把文档分类到一个层次组织(Hierarchical Structure)里就叫“层次分类”(Hierarchical Classification)。在这样的情况下,一个文档同时属于这个层次结构上从根节点到叶子节点的所有类别。一般来说,上层节点相对于下层节点更加抽象。
文档分类经典特性
了解了文档分类的基本类型之后,我们接着来讨论文档分类所用到的经典特性。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
文档分类在现代搜索技术中扮演着至关重要的角色。本文介绍了文档分类的类型、特性和相关算法,为读者提供了对文档分类的基本认识和技术要点。 首先,文档分类类型包括二元分类、多类分类以及层次分类,为不同需求提供了灵活的选择。其次,文档分类所用到的经典特性包括词袋模型、N元语法、递归神经网络等,这些特性为文档分类提供了丰富的信息基础。此外,文章还介绍了文档分类相关的算法,包括对数几率回归、支持向量机、朴素的贝叶斯分类器以及深度学习模型等,展示了多样化的应用选择。 最后,关系学习的提及,即利用文档与文档之间的关系来提高文档的分类效果,为读者展示了文档分类的进阶应用。总的来说,本文通过介绍文档分类的类型、特性和相关算法,为读者提供了全面的文档分类知识概览,为进一步深入学习和讨论提供了基础。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(4)
- 最新
- 精选
- 鬼猫猫每篇都做一下思维导图当笔记
作者回复: 谢谢支持。
2017-12-133 - georgesuper GoodTOGreater要是能在每篇技术文档后附上代码Demo就完美了
作者回复: 这些文档主要起抛砖引玉的作用,不过谢谢建议。
2017-12-12 - sky利用深度学习把图片的特征学习出来,再把这些特征放到分类算法里面去训练,这样可以吗2018-06-072
- 买桃者先将文档的每段文字转化成一个词向量,然后按照顺序和图片转化的向量进行连接,一起作为分类算法的输入,这样做是不是可以保留语义信息和结构信息?2019-05-04
收起评论