AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

101 | 基础文本分析模型之二:概率隐语义分析

在上一篇的分享里,我们展开了文本分析这个方向,讨论了“隐语义分析”(Latent Semantic Indexing)这个模型。隐语义分析的核心是基于矩阵分解的代数方法。这种方法的好处自然是能够直接利用代数计算方法对文本进行分析,而短板则是无法很好地解释结果。而“解释性”是很多概率模型的一大优势,因此,自然就有很多研究者想到是否能够把概率的语言移植到隐语义分析上。
今天,我们就来分享“概率隐语义分析”(Probabilistic Latent Semantic Indexing)的一些基本内容。概率隐语义分析有时候又被简称为 PLSA(Probability Latent Semantic Analysis)。

隐语义分析核心思想

上周我们介绍过隐语义分析的核心思想,首先来简要回顾一下。
隐语义分析的核心其实就是用无监督的方法从文本中提取特性,而这些特性可能会对原来文本的深层关系有着更好的解释。
简单来说,隐语义分析就是利用了“矩阵分解”的概念,从而对“词 - 文档矩阵”(Term-Document Matrix)进行分解。

概率隐语义分析

既然概率隐语义分析是利用概率的语言,那么我们就来看看概率隐语义分析是如何对文档进行建模的。
首先,PLSA 是对文档和里面单词的联合分布进行建模。这个文档和单词的联合分布其实就是类似隐语义分析中的那个文档和单词的矩阵。只不过,在 PLSA 里,我们不是直接对数据进行建模,而是认为数据是从某个分布中产生的结果。那么,对于这个联合分布该如何建模呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 林彦
    PLSA是从现有的数据简化的联合分布估计出来的,会不会导致对训练集的数据过拟合?
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部