AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

033 | 经典搜索核心算法:语言模型及其变种

在信息检索和文本挖掘领域,我们之前已经讲过了 TF-IDF 算法和 BM25 算法。TF-IDF 因其简单和实用常常成为很多信息检索任务的第一选择,BM25 则以其坚实的经验公式成了很多工业界实际系统的重要基石。
然而,在信息检索研究者的心里,一直都在寻找一种既容易解释,又能自由扩展,并且在实际使用中效果显著的检索模型。这种情况一直到 20 世纪 90 年代末、21 世纪初才得到了突破,一种叫“语言模型”(Language Model)的新模型得到发展。其后 10 多年的时间里,以语言模型为基础的各类变种可谓层出不穷,成了信息检索和搜索领域的重要研究方向。
今天我就来谈谈语言模型的历史,算法细节和语言模型的重要变种,帮助初学者快速掌握这一模型。

语言模型的历史

语言模型在信息检索中的应用开始于 1998 年的 SIGIR 大会(International ACM SIGIR Conference on Research and Development in Information Retrieval,国际信息检索大会)。来自马萨诸塞州大学阿姆赫斯特分校(UMass Amherst)的信息检索学者杰·庞特(Jay M. Ponte)和布鲁斯·夸夫特(W. Bruce Croft)发表了第一篇应用语言模型的论文,从此开启了一个新的时代。
布鲁斯是信息检索的学术权威。早年他在英国的剑桥大学获得博士学位,之后一直在马萨诸塞州大学阿姆赫斯特分校任教。他于 2003 年获得美国计算机协会 ACM 颁发的“杰拉德·索尔顿奖”,表彰他在信息检索领域所作出的突出贡献。另外,布鲁斯也是 ACM 院士。
从那篇论文发表之后,华人学者翟成祥对于语言模型的贡献也是当仁不让。他的博士论文就是系统性论述语言模型的平滑技术以及各类语言模型的深刻理论内涵。
翟成祥来自中国的南京大学计算机系,并于 1984 年、1987 年和 1990 年分别获得南京大学的学士、硕士和博士学位,2002 年他从美国卡内基梅隆大学计算机系的语言与信息技术研究所获得另外一个博士学位。
翟成祥曾经获得过 2004 年的美国国家科学基金会职业生涯奖(NSF CAREER Award)和 2004 年 ACM SIGIR 最佳论文奖。另外,2004 年翟成祥还获得了著名的美国总统奖(PECASE,Presidential Early Career Award for Scientists and Engineers)。

语言模型详解

语言模型的核心思想是希望用概率模型(Probabilistic Model)来描述查询关键字和目标文档之间的关系。语言模型有很多的类型,最简单的、也是最基础的叫做“查询关键字似然检索模型”(Query Likelihood Retrieval Model)。下面我就来聊一聊这个模型的一些细节。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(10)

  • 最新
  • 精选
  • Topic modelling 常用的 LDA 是不是就是基是于语言模型发展而来的呢?

    作者回复: 不完全是。但我们可以把LDA看作是多个语言模型的某种复杂混合。

    1
  • Qi
    这样全用文字讲算法有点似懂非懂,建议举点例子。
    12
  • rookie
    EM算法、变分推断、MCMC等
    4
  • 梁中华
    感觉有点抽象,对没有基础和背景知识的同学理解起来很累,每句话都懂,但串起来还是把握不了这个知识点
    3
  • 巧克力芭菲
    整体看下来。。。讲了等于没讲,太上层概括了,出去跟人聊天用得到。。。
    归属地:北京
    1
  • 胡杰
    概率分布函数没有解析解,是否表示求解过程就是一个非多项式复杂度的计算?如果是这样那么就是一个NP完备问题,用神经网络去逼近的话应该也求不出吧?
  • hiee
    如果能将理论和实践结合起来,这些理论如何解决当前搜索遇到的常见问题,这样会让我们更受益
  • 黄德平
    可以用神经网络代替解析形式,通过神经网络的参数拟合这些"参数",梯度下降方法就可以派上用场了
  • 淳韵
    没有解析解,就得用梯度下降等优化方法逼近吧?
  • 淳韵
    没有解析解,就得用梯度下降等优化方法逼近吧?
收起评论
显示
设置
留言
10
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部