AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

098 | LDA变种模型知多少

我们在之前的分享中曾经介绍过文本挖掘(Text Mining)中的重要工具 LDA(Latent Diriclet Allocation)的基本原理。在文本挖掘中,有一项重要的工作就是分析和挖掘出文本中隐含的结构信息,而不依赖任何提前标注(Labeled)的信息。也就是说,我们希望能够利用文本挖掘技术来对无标签的数据进行挖掘,这是典型的无监督学习。
LDA 就是一个出色的无监督学习的文本挖掘模型。这个模型在过去的十年里开启了主题模型(Topic Model)这个领域。不少学者都利用 LDA 来分析各式各样的文档数据,从新闻数据到医药文档,从考古文献到政府公文。在一段时间内,LDA 成为了分析文本信息的标准工具。而从最原始的 LDA 发展出来的各类模型变种,则被应用到了多种数据类型上,包括图像、音频、混合信息、推荐系统、文档检索等等,可以说各类主题模型变种层出不穷。
今天我们就结合几篇经典论文,来看一看LDA 的各种扩展模型。当然,在介绍今天的内容之前,我们首先来回顾一下 LDA 模型的一些基本信息。

LDA 模型的回顾

LDA 模型是一个典型的产生式模型(Generative Model)。产生式模型的一大特点就是通过一组概率语言,对数据的产生过程进行描述,从而对现实数据建立一个模型。注意,这个产生过程的本质是描述的一个联合概率分布(Joint Distribution)的分解过程。也就是说,这个过程是一个虚拟的过程,真实的数据往往并不是这样产生的。这样的产生过程是模型的一个假设,一种描述。任何一个产生过程都可以在数学上完全等价一个联合概率分布。
LDA 的产生过程描述了文档以及文档中文字的产生过程。在原始的 LDA 论文中,作者们描述了对于每一个文档而言的产生过程。
相比于传统的文本聚类方法,LDA 对于每个文档的每一个字都有一个主题下标,也就是说,LDA 是没有一个文档统一的聚类标签,而是每个字有一个聚类标签,在这里就是主题。
LDA 模型的训练一直是一个难点。传统上,LDA 的学习属于贝叶斯推断(Bayesian Inference),而在 2000 年初期,只有 MCMC 算法(Markov chain Monte Carlo,马尔科夫链蒙特卡洛)以及 VI(Variational Inference,变分推断)作为工具可以解决。在最初的 LDA 论文里,作者们采用了 VI;后续大多数 LDA 相关的论文都选择了 MCMC 为主的吉布斯采样(Gibbs Sampling)来作为学习算法。

LDA 的扩展

当 LDA 被提出以后,不少学者看到了这个模型的潜力,于是开始思考怎么把更多的信息融入到 LDA 里面去。通过我们上面的讲解,你可以看到,LDA 只是对文档的文字信息本身进行建模。但是绝大多数的文档数据集还有很多额外的信息,如何利用这些额外信息,就成为了日后对 LDA 扩展的最重要的工作。
第一个很容易想到的需要扩展的信息就是作者信息。特别是 LDA 最早期的应用,对于一般的文档来说,比如科学文档或者新闻文档,都有作者信息。很多时候我们希望借用作者在写文档时的遣词造句风格来分析作者的一些写作信息。那么,如何让 LDA 能够分析作者的信息呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • Jack_Sainity
    每个用户看做一篇文档,用户选择的商品视作文档中的每个词。
    2
  • 林彦
    通过LDA生成用户的兴趣主题(商品的语义标签是一种数据来源),这个过程有些类似于生成文档。然后根据这些用户兴趣主题来寻找匹配的商品,比如计算和商品主题的相似度。
    1
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部