098 | LDA变种模型知多少

洪亮劼



该思维导图由 AI 生成，仅供参考

我们在之前的分享中曾经介绍过文本挖掘（Text Mining）中的重要工具 LDA（Latent Diriclet Allocation）的基本原理。在文本挖掘中，有一项重要的工作就是分析和挖掘出文本中隐含的结构信息，而不依赖任何提前标注（Labeled）的信息。也就是说，我们希望能够利用文本挖掘技术来对无标签的数据进行挖掘，这是典型的无监督学习。
LDA 就是一个出色的无监督学习的文本挖掘模型。这个模型在过去的十年里开启了主题模型（Topic Model）这个领域。不少学者都利用 LDA 来分析各式各样的文档数据，从新闻数据到医药文档，从考古文献到政府公文。在一段时间内，LDA 成为了分析文本信息的标准工具。而从最原始的 LDA 发展出来的各类模型变种，则被应用到了多种数据类型上，包括图像、音频、混合信息、推荐系统、文档检索等等，可以说各类主题模型变种层出不穷。
今天我们就结合几篇经典论文，来看一看LDA 的各种扩展模型。当然，在介绍今天的内容之前，我们首先来回顾一下 LDA 模型的一些基本信息。
LDA 模型的回顾LDA 模型是一个典型的产生式模型（Generative Model）。产生式模型的一大特点就是通过一组概率语言，对数据的产生过程进行描述，从而对现实数据建立一个模型。注意，这个产生过程的本质是描述的一个联合概率分布（Joint Distribution）的分解过程。也就是说，这个过程是一个虚拟的过程，真实的数据往往并不是这样产生的。这样的产生过程是模型的一个假设，一种描述。任何一个产生过程都可以在数学上完全等价一个联合概率分布。
LDA 的产生过程描述了文档以及文档中文字的产生过程。在原始的 LDA 论文中，作者们描述了对于每一个文档而言的产生过程。
LDA 模型的前世今生
相比于传统的文本聚类方法，LDA 对于每个文档的每一个字都有一个主题下标，也就是说，LDA 是没有一个文档统一的聚类标签，而是每个字有一个聚类标签，在这里就是主题。
LDA 模型的训练一直是一个难点。传统上，LDA 的学习属于贝叶斯推断（Bayesian Inference），而在 2000 年初期，只有 MCMC 算法（Markov chain Monte Carlo，马尔科夫链蒙特卡洛）以及 VI（Variational Inference，变分推断）作为工具可以解决。在最初的 LDA 论文里，作者们采用了 VI；后续大多数 LDA 相关的论文都选择了 MCMC 为主的吉布斯采样（Gibbs Sampling）来作为学习算法。
LDA 的扩展当 LDA 被提出以后，不少学者看到了这个模型的潜力，于是开始思考怎么把更多的信息融入到 LDA 里面去。通过我们上面的讲解，你可以看到，LDA 只是对文档的文字信息本身进行建模。但是绝大多数的文档数据集还有很多额外的信息，如何利用这些额外信息，就成为了日后对 LDA 扩展的最重要的工作。
第一个很容易想到的需要扩展的信息就是作者信息。特别是 LDA 最早期的应用，对于一般的文档来说，比如科学文档或者新闻文档，都有作者信息。很多时候我们希望借用作者在写文档时的遣词造句风格来分析作者的一些写作信息。那么，如何让 LDA 能够分析作者的信息呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

LDA变种模型知多少 LDA（Latent Diriclet Allocation）是文本挖掘中的重要工具，用于分析和挖掘文本中的隐含结构信息。LDA模型是一个典型的产生式模型，描述了文档和文档中文字的产生过程。在LDA模型的基础上，出现了多种扩展模型，以应用到不同数据类型上。其中，作者LDA是将作者信息融入到LDA模型中的扩展模型，通过为每个文档的作者选择一组相对应的主题，从而影响文档的主题分布。另一种扩展思路是“上游扩展法”，将希望对模型有影响的信息放到主题分布的上游，主动影响主题分布的变化。同时，还有将LDA应用到多模数据领域的模型，通过将其他信息放在主题变量的下游，希望通过主题变量来施加影响。除此以外，还有将文档放到时间尺度上进行分析的动态主题模型。这些扩展模型丰富了LDA的应用领域，使其能够对多种不同的数据进行建模。总的来说，LDA的扩展模型包括基于上游、下游和时间序列的扩展模型。这些模型丰富了LDA的应用领域，为不同类型的数据分析提供了新的思路和方法。如果希望利用LDA对“用户对商品的喜好”进行建模，可以考虑对模型进行相应的调整。通过对LDA的扩展模型的了解，读者可以更深入地理解LDA模型的应用和发展，以及如何将其应用到不同领域的数据分析中。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

Jack_Sainity
每个用户看做一篇文档，用户选择的商品视作文档中的每个词。
2018-04-16

2
林彦
通过LDA生成用户的兴趣主题(商品的语义标签是一种数据来源)，这个过程有些类似于生成文档。然后根据这些用户兴趣主题来寻找匹配的商品，比如计算和商品主题的相似度。
2018-04-18

1

收起评论