AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

101 | 基础文本分析模型之二:概率隐语义分析

都是对文档单词分布的一种分解或产生解释
或者假设有一个主题的先验概率,然后根据主题分布产生文档和单词
从文档出发产生主题,再从主题产生单词
简化方法:分解联合分布,假定隐含变量
PLSA和LDA的相似性
PLSA模型的基本假设
方法:直接建模或简化联合分布
对文档和单词的联合分布进行建模
利用矩阵分解对词-文档矩阵进行分解
用无监督方法从文本中提取特性
学习PLSA的隐变量模型
PLSA的建模流程
隐语义分析核心思想
概率隐语义分析

该思维导图由 AI 生成,仅供参考

在上一篇的分享里,我们展开了文本分析这个方向,讨论了“隐语义分析”(Latent Semantic Indexing)这个模型。隐语义分析的核心是基于矩阵分解的代数方法。这种方法的好处自然是能够直接利用代数计算方法对文本进行分析,而短板则是无法很好地解释结果。而“解释性”是很多概率模型的一大优势,因此,自然就有很多研究者想到是否能够把概率的语言移植到隐语义分析上。
今天,我们就来分享“概率隐语义分析”(Probabilistic Latent Semantic Indexing)的一些基本内容。概率隐语义分析有时候又被简称为 PLSA(Probability Latent Semantic Analysis)。

隐语义分析核心思想

上周我们介绍过隐语义分析的核心思想,首先来简要回顾一下。
隐语义分析的核心其实就是用无监督的方法从文本中提取特性,而这些特性可能会对原来文本的深层关系有着更好的解释。
简单来说,隐语义分析就是利用了“矩阵分解”的概念,从而对“词 - 文档矩阵”(Term-Document Matrix)进行分解。

概率隐语义分析

既然概率隐语义分析是利用概率的语言,那么我们就来看看概率隐语义分析是如何对文档进行建模的。
首先,PLSA 是对文档和里面单词的联合分布进行建模。这个文档和单词的联合分布其实就是类似隐语义分析中的那个文档和单词的矩阵。只不过,在 PLSA 里,我们不是直接对数据进行建模,而是认为数据是从某个分布中产生的结果。那么,对于这个联合分布该如何建模呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

概率隐语义分析是一种基于概率模型的文本分析方法,通过对文档和单词的联合分布进行建模,从而提取文本的隐含特性。该方法假设文档和单词的联合分布是从隐含变量(如主题)产生的结果,通过对这些隐含变量进行建模,实现对文本的分析和解释。概率隐语义分析与隐语义分析(LSI)相似,但在建模过程中引入了概率的语言,使得模型更具解释性。PLSA模型的建模流程存在一定局限性,如对数据不足的情况处理不足以及无法找到合适的已知参数的分布来描述联合分布等。总的来说,概率隐语义分析是一种重要的文本分析方法,通过对文本的概率建模,实现了对文本特性的提取和解释。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 林彦
    PLSA是从现有的数据简化的联合分布估计出来的,会不会导致对训练集的数据过拟合?
    2018-04-27
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部