101 | 基础文本分析模型之二：概率隐语义分析

洪亮劼



该思维导图由 AI 生成，仅供参考

在上一篇的分享里，我们展开了文本分析这个方向，讨论了“隐语义分析”（Latent Semantic Indexing）这个模型。隐语义分析的核心是基于矩阵分解的代数方法。这种方法的好处自然是能够直接利用代数计算方法对文本进行分析，而短板则是无法很好地解释结果。而“解释性”是很多概率模型的一大优势，因此，自然就有很多研究者想到是否能够把概率的语言移植到隐语义分析上。
今天，我们就来分享“概率隐语义分析”（Probabilistic Latent Semantic Indexing）的一些基本内容。概率隐语义分析有时候又被简称为 PLSA（Probability Latent Semantic Analysis）。
隐语义分析核心思想上周我们介绍过隐语义分析的核心思想，首先来简要回顾一下。
隐语义分析的核心其实就是用无监督的方法从文本中提取特性，而这些特性可能会对原来文本的深层关系有着更好的解释。
简单来说，隐语义分析就是利用了“矩阵分解”的概念，从而对“词 - 文档矩阵”（Term-Document Matrix）进行分解。
概率隐语义分析既然概率隐语义分析是利用概率的语言，那么我们就来看看概率隐语义分析是如何对文档进行建模的。
首先，PLSA 是对文档和里面单词的联合分布进行建模。这个文档和单词的联合分布其实就是类似隐语义分析中的那个文档和单词的矩阵。只不过，在 PLSA 里，我们不是直接对数据进行建模，而是认为数据是从某个分布中产生的结果。那么，对于这个联合分布该如何建模呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

概率隐语义分析是一种基于概率模型的文本分析方法，通过对文档和单词的联合分布进行建模，从而提取文本的隐含特性。该方法假设文档和单词的联合分布是从隐含变量（如主题）产生的结果，通过对这些隐含变量进行建模，实现对文本的分析和解释。概率隐语义分析与隐语义分析（LSI）相似，但在建模过程中引入了概率的语言，使得模型更具解释性。PLSA模型的建模流程存在一定局限性，如对数据不足的情况处理不足以及无法找到合适的已知参数的分布来描述联合分布等。总的来说，概率隐语义分析是一种重要的文本分析方法，通过对文本的概率建模，实现了对文本特性的提取和解释。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

林彦
PLSA是从现有的数据简化的联合分布估计出来的，会不会导致对训练集的数据过拟合？
2018-04-27



收起评论