AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33454 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

043 | 文档理解第一步:文档分类

小结
文档分类相关算法
文档分类经典特性
文档分类的类型
文档分类

该思维导图由 AI 生成,仅供参考

我们在前几周的专栏里讲解了最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank),并且花了一定的时间分享了查询关键字理解(Query Understanding)这一关键搜索组件的核心技术要点。上周,我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。
这周我们的分享将转移到搜索的另外一个重要部件:文档理解(Document Understanding)。也就是从文档中抽取各种特性,来帮助检索算法找到更加相关的文档。
文档理解最基本的一个步骤就是给文档分类(Classification),看这些文档表达什么类别的信息。今天我就来和你聊一聊文档分类的一些基本概念和技术,让你对这方面的开发与研究有一个基本认识。

文档分类的类型

如果我们把文档分类看做一个监督学习任务的话,那么在各式应用中就经常使用以下几种类型的文档分类。
第一个类别就是二元分类,或者称为二分文档分类,目的就是把文档分成两种不同的类别。比如,把文档分成“商业类”或者“非商业类”。
第二个类别自然就是多类分类,也就是判断文档是否属于好几种不同类别中的某一个。比如,把文档划归为“艺术”、“商业”、“计算机”或者“运动”类别中的某一类。
当然,在多类分类的下面,我们还可以分三个小类别。
第一个小类别,是“多类 - 单标签 - 硬分类”(Multiclass,Single-Label,Hard Classification)。什么意思呢?就是说每一个文档只能在多类分类问题中被赋予唯一的标签,并且所有互相的类别是不兼容的。
第二个小类别,就是“多类 - 多标签 - 硬分类”(Multiclass,Multilabel,Hard Classification),也就是说每一个文档可以被认为属于多个类别,然而每个这样的分类都是唯一确定的。
最后一个小类别则是“多类 - 软分类”(Multiclass,Soft Classification),也就是认定每个文档以概率的形态属于多个类别。
在这个分类基础上,还有一种分类的方法,那就是可以把所有的类别看做一个平面的结构(Flat)或者是有组织结构的。通常情况下,如果把文档分类到一个层次组织(Hierarchical Structure)里就叫“层次分类”(Hierarchical Classification)。在这样的情况下,一个文档同时属于这个层次结构上从根节点到叶子节点的所有类别。一般来说,上层节点相对于下层节点更加抽象。

文档分类经典特性

了解了文档分类的基本类型之后,我们接着来讨论文档分类所用到的经典特性。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

文档分类在现代搜索技术中扮演着至关重要的角色。本文介绍了文档分类的类型、特性和相关算法,为读者提供了对文档分类的基本认识和技术要点。 首先,文档分类类型包括二元分类、多类分类以及层次分类,为不同需求提供了灵活的选择。其次,文档分类所用到的经典特性包括词袋模型、N元语法、递归神经网络等,这些特性为文档分类提供了丰富的信息基础。此外,文章还介绍了文档分类相关的算法,包括对数几率回归、支持向量机、朴素的贝叶斯分类器以及深度学习模型等,展示了多样化的应用选择。 最后,关系学习的提及,即利用文档与文档之间的关系来提高文档的分类效果,为读者展示了文档分类的进阶应用。总的来说,本文通过介绍文档分类的类型、特性和相关算法,为读者提供了全面的文档分类知识概览,为进一步深入学习和讨论提供了基础。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • 鬼猫猫
    每篇都做一下思维导图当笔记

    作者回复: 谢谢支持。

    2017-12-13
    3
  • georgesuper GoodTOGreater
    要是能在每篇技术文档后附上代码Demo就完美了

    作者回复: 这些文档主要起抛砖引玉的作用,不过谢谢建议。

    2017-12-12
  • sky
    利用深度学习把图片的特征学习出来,再把这些特征放到分类算法里面去训练,这样可以吗
    2018-06-07
    2
  • 买桃者
    先将文档的每段文字转化成一个词向量,然后按照顺序和图片转化的向量进行连接,一起作为分类算法的输入,这样做是不是可以保留语义信息和结构信息?
    2019-05-04
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部