044 | 文档理解的关键步骤：文档聚类

洪亮劼



该思维导图由 AI 生成，仅供参考

周一我们分享了文档理解最基本的一个步骤，那就是给文档分类（Classification），主要是看不同文档表达什么类别的信息。今天我就来聊一聊文档理解的另外一个重要组件：文档聚类（Document Clustering）。
文档聚类的类型和了解文档分类的思路相似，我们先来看看文档聚类的分类。一般来说，可以把文档聚类看作非监督学习的典型代表。
先说一种直观的分类方法。如果把文档分为“互不相关”的几个聚类，那就叫作“扁平聚类”（Flat Clustering）；如果这些聚类相互之间有一定的结构关系，那就叫作“层次聚类”（Hierarchical Clustering）。
“扁平聚类”中的“互不相关”是说文档所划分进去的聚类之间本身没有重合。而“层次聚类”的特点是，希望在聚类之间找到关系，从而把这些文档组织到一个有层次的结构中。在这种层级结构里，根节点所代表的内容往往比较抽象，而叶节点所表达的内容则比较具体。
值得注意的是，不管是“扁平聚类”还是“层次聚类”，相较于文档分类来说，这里最大的不同就是这些聚类以及它们之间的关系都不是事先定义好的，或者说研发人员事先并不知道这些聚类的存在。从这个角度来看，聚类的确是比分类要困难的任务，难在如何衡量聚类的好坏。
除了“扁平聚类”和“层次聚类”这种区分以外，聚类方法中还有一个类似的区分，那就是“硬聚类”（Hard Assignment）和“软聚类”（Soft Assignment）的区别。
顾名思义，“硬聚类”是说对于每一个文档，不管是“扁平聚类”还是“层次聚类”，都确定性地分配到一个或者一组聚类中。而“软聚类”则往往学习到文档分配到聚类的一个分布，也就是说所有的分配都是以某种概率存在的。
文档聚类的应用在搜索系统为背景的场景中，我们为什么要强调文档聚类？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

文档聚类在搜索系统中的应用是一个重要的技术问题。本文介绍了文档聚类的类型、应用场景、基本模型和难点。首先，文档聚类可分为扁平聚类和层次聚类，以及硬聚类和软聚类。其次，文档聚类在搜索系统中可以帮助文档提取和排序，整理搜索结果，并帮助研究人员浏览文档集合。基础的文档扁平聚类方法是K均值算法，通过特征向量表示文档并进行聚类。然而，文档聚类也面临着难点，如如何评价聚类算法的质量以及确定聚类的个数。最后，读者被引导思考如何将文档聚类的结果应用于其他任务中。整体而言，本文深入浅出地介绍了文档聚类的技术特点和应用场景，为读者提供了全面的了解。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

极客星星
文档聚类的结果我理解应该可以作为排序模型的一个特征帮助更好的排序。此外,是不是召回时也可以利用这个信息
作者回复: 是的。
2017-12-13

2

收起评论