033 | 经典搜索核心算法：语言模型及其变种

洪亮劼



该思维导图由 AI 生成，仅供参考

在信息检索和文本挖掘领域，我们之前已经讲过了 TF-IDF 算法和 BM25 算法。TF-IDF 因其简单和实用常常成为很多信息检索任务的第一选择，BM25 则以其坚实的经验公式成了很多工业界实际系统的重要基石。
然而，在信息检索研究者的心里，一直都在寻找一种既容易解释，又能自由扩展，并且在实际使用中效果显著的检索模型。这种情况一直到 20 世纪 90 年代末、21 世纪初才得到了突破，一种叫“语言模型”（Language Model）的新模型得到发展。其后 10 多年的时间里，以语言模型为基础的各类变种可谓层出不穷，成了信息检索和搜索领域的重要研究方向。
今天我就来谈谈语言模型的历史，算法细节和语言模型的重要变种，帮助初学者快速掌握这一模型。
语言模型的历史语言模型在信息检索中的应用开始于 1998 年的 SIGIR 大会（International ACM SIGIR Conference on Research and Development in Information Retrieval，国际信息检索大会）。来自马萨诸塞州大学阿姆赫斯特分校（UMass Amherst）的信息检索学者杰·庞特（Jay M. Ponte）和布鲁斯·夸夫特（W. Bruce Croft）发表了第一篇应用语言模型的论文，从此开启了一个新的时代。
布鲁斯是信息检索的学术权威。早年他在英国的剑桥大学获得博士学位，之后一直在马萨诸塞州大学阿姆赫斯特分校任教。他于 2003 年获得美国计算机协会 ACM 颁发的“杰拉德·索尔顿奖”，表彰他在信息检索领域所作出的突出贡献。另外，布鲁斯也是 ACM 院士。
从那篇论文发表之后，华人学者翟成祥对于语言模型的贡献也是当仁不让。他的博士论文就是系统性论述语言模型的平滑技术以及各类语言模型的深刻理论内涵。
翟成祥来自中国的南京大学计算机系，并于 1984 年、1987 年和 1990 年分别获得南京大学的学士、硕士和博士学位，2002 年他从美国卡内基梅隆大学计算机系的语言与信息技术研究所获得另外一个博士学位。
翟成祥曾经获得过 2004 年的美国国家科学基金会职业生涯奖（NSF CAREER Award）和 2004 年 ACM SIGIR 最佳论文奖。另外，2004 年翟成祥还获得了著名的美国总统奖（PECASE，Presidential Early Career Award for Scientists and Engineers）。
语言模型详解语言模型的核心思想是希望用概率模型（Probabilistic Model）来描述查询关键字和目标文档之间的关系。语言模型有很多的类型，最简单的、也是最基础的叫做“查询关键字似然检索模型”（Query Likelihood Retrieval Model）。下面我就来聊一聊这个模型的一些细节。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

语言模型在信息检索和文本挖掘领域扮演着重要角色。本文首先介绍了语言模型的历史渊源，指出其易于解释、可自由扩展且在实际使用中效果显著的特点。接着详细解释了“查询关键字似然检索模型”的核心思想和构成要素，以及语言模型的参数估计方法。此外，还介绍了语言模型的两个主要变种方向，包括不同类型的平滑策略和基于两个分布的相关性定义。总结指出，相对于传统的TF-IDF和BM25算法，语言模型更加直观、易于理解，是一种强有力的非监督学习方法的文本排序算法。最后，提出了一个思考题，引发读者思考如何在无法得到最优解析解的情况下求解语言模型的参数。整体而言，本文深入浅出地介绍了语言模型的基本概念和发展趋势，适合初学者快速了解和掌握相关知识。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(10)

最新
精选

沉
Topic modelling 常用的 LDA 是不是就是基是于语言模型发展而来的呢？
作者回复: 不完全是。但我们可以把LDA看作是多个语言模型的某种复杂混合。
2017-11-25

1
Qi
这样全用文字讲算法有点似懂非懂，建议举点例子。
2018-12-28

12
rookie
EM算法、变分推断、MCMC等
2019-05-27

4
梁中华
感觉有点抽象，对没有基础和背景知识的同学理解起来很累，每句话都懂，但串起来还是把握不了这个知识点
2018-11-13

3
巧克力芭菲
整体看下来。。。讲了等于没讲，太上层概括了，出去跟人聊天用得到。。。
2022-11-07归属地：北京

1
胡杰
概率分布函数没有解析解，是否表示求解过程就是一个非多项式复杂度的计算？如果是这样那么就是一个NP完备问题，用神经网络去逼近的话应该也求不出吧？
2020-03-19


hiee
如果能将理论和实践结合起来，这些理论如何解决当前搜索遇到的常见问题，这样会让我们更受益
2019-08-12


黄德平
可以用神经网络代替解析形式，通过神经网络的参数拟合这些"参数"，梯度下降方法就可以派上用场了
2018-12-16


淳韵
没有解析解，就得用梯度下降等优化方法逼近吧？
2018-10-11


淳韵
没有解析解，就得用梯度下降等优化方法逼近吧？
2018-10-11



收起评论