AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

097 | LDA模型的前世今生

在文本挖掘中,有一项重要的工作就是分析和挖掘出文本中隐含的结构信息,而不依赖任何提前标注的信息。今天我要介绍的是一个叫做 LDA(Latent Dirichlet Allocation)的模型,它在过去十年里开启了一个领域叫主题模型
从 LDA 提出后,不少学者都利用它来分析各式各样的文档数据,从新闻数据到医药文档,从考古文献到政府公文。一段时间内,LDA 成了分析文本信息的标准工具。从最原始的 LDA 发展出来的各类模型变种,则被应用到了多种数据类型上,包括图像、音频、混合信息、推荐系统、文档检索等等,各类主题模型变种层出不穷。下面我来简单剖析一下 LDA 这个模型,聊聊它的模型描述以及训练方法等基础知识。

LDA 的背景介绍

LDA 的论文作者是戴维·布雷(David Blei)、吴恩达和迈克尔·乔丹(Michael Jordan)。这三位都是今天机器学习界炙手可热的人物。论文最早发表在 2002 年的神经信息处理系统大会(Neural Information Processing Systems,简称 NIPS)上,然后长文章(Long Paper)于 2003 年在机器学习顶级期刊《机器学习研究杂志》(Journal of Machine Learning Research)上发表。迄今为止,这篇论文已经有超过 1 万 9 千次的引用数,也成了机器学习史上的重要文献之一。
论文发表的时候,戴维·布雷还在加州大学伯克利分校迈克尔手下攻读博士。吴恩达当时刚刚从迈克尔手下博士毕业来到斯坦福大学任教。戴维 2004 年从伯克利毕业后,先到卡内基梅隆大学跟随统计学权威教授约翰·拉弗蒂(John Lafferty)做了两年的博士后学者,然后又到东部普林斯顿大学任教职,先后担任助理教授和副教授。2014 年转到纽约哥伦比亚大学任统计系和计算机系的正教授。戴维在 2010 年获得斯隆奖(Alfred P. Sloan Fellowship,美国声誉极高的奖励研究人员的奖项,不少诺贝尔奖获得者均在获得诺贝尔奖多年之前获得过此奖),紧接着又在 2011 年获得总统青年科学家和工程师早期成就奖(Presidential Early Career Award for Scientists and Engineers,简称 PECASE)。目前他所有论文的引用数超过了 4 万 9 千次 。
吴恩达在斯坦福晋升到副教授后,2011 年到 2012 年在 Google 工作,开启了谷歌大脑(Google Brain)的项目来训练大规模的深度学习模型,是深度学习的重要人物和推动者之一。2012 年他合作创建了在线学习平台 Coursera,可以说是打开了慕课(Massive Open Online Course,简称 MOOC)运动的大门。之后吴恩达从 2014 年到 2017 年间担任百度首席科学家,并创建和运行了百度在北美的研究机构。目前他所有论文的引用数超过 8 万 3 千次。
文章的第三作者迈克尔·乔丹是机器学习界的泰斗人物。他自 1998 年在加州大学伯克利任教至今,是美国三个科学院院士(American Academy of Arts and Sciences、National Academy of Engineering 以及 National Academy of Sciences),是诸多学术和专业组织的院士(比如 ACM、IEEE、AAAI、SIAM 等)。迈克尔可以说是桃李满天下,而且其徒子徒孙也已经遍布整个机器学习领域,不少都是学术权威。他的所有论文有多达 12 万次以上的引用量。
值得注意的是,对于三位作者来说,LDA 论文都是他们单篇论文引用次数最多的文章。

LDA 模型

要描述 LDA 模型,就要说一下 LDA 模型所属的产生式模型(Generative Model)的背景。产生式模型是相对于判别式模型(Discriminative Model)而说的。这里,我们假设需要建模的数据有特征信息,也就是通常说的 X,以及标签信息,也就是通常所说的 Y。
判别式模型常常直接对 Y 的产生过程(Generative Process) 进行描述,而对特征信息本身不予建模。这使得判别式模型天生就成为构建分类器或者回归分析的有利工具。而产生式模型则要同时对 X 和 Y 建模,这使得产生式模型更适合做无标签的数据分析,比如聚类。当然,因为产生式模型要对比较多的信息进行建模,所以一般认为对于同一个数据而言,产生式模型要比判别式模型更难以学习。
一般来说,产生式模型希望通过一个产生过程来帮助读者理解一个模型。注意,这个产生过程本质是描述一个联合概率分布(Joint Distribution)的分解过程。也就是说,这个过程是一个虚拟过程,真实的数据往往并不是这样产生的。这样的产生过程是模型的一个假设,一种描述。任何一个产生过程都可以在数学上完全等价一个联合概率分布。
LDA 的产生过程描述了文档以及文档中文字的生成过程。在原始的 LDA 论文中,作者们描述了对于每一个文档而言有这么一种生成过程:
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(7)

  • 最新
  • 精选
  • 陈俊
    对于非统计学或cs专业的同学,上一期和这一期似乎有点深奥。但是还是十分感谢老师的辛苦付出!
    5
  • 如果能在文中给出一些可以详细参考的资料就更好了~
    2
  • 兔子ORZ
    有监督的LDA比较好的形式就是LLDA,在plate notation上的theta上再加上一个观察变量表示主题标签,而这个观察变量也是基于狄利克雷超参的
    1
  • unicornmm
    希望能够给出每篇文章的链接,非常感谢老师的讲解
    1
  • 长期基础研究,和短期工程实现本质上有传统的。有种可能性,就是给研究团队配备专门的专门转化和monetization团队,相互配合,各司其职。
  • 潜行
    希望老师给文章链接,另外提到很多统计学的知识,还看不懂。。得好好消化
  • 惜心(伟祺)
    文章后的问题一段属于同一主题 是不是可以在生成这段字时候公用生成主题的theta参数值 就相当于同一段落同一主题了
收起评论
显示
设置
留言
7
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部