AI技术内参
洪亮劼
Etsy数据科学主管,前雅虎研究院资深科学家
立即订阅
8430 人已学习
课程目录
已完结 166 讲
0/6登录后,你可以任选6讲全文学习。
开篇词 (1讲)
开篇词 | 你的360度人工智能信息助理
免费
人工智能国际顶级会议 (15讲)
001 | 聊聊2017年KDD大会的时间检验奖
002 | 精读2017年KDD最佳研究论文
003 | 精读2017年KDD最佳应用数据科学论文
004 | 精读2017年EMNLP最佳长论文之一
005 | 精读2017年EMNLP最佳长论文之二
006 | 精读2017年EMNLP最佳短论文
007 | 精读2017年ICCV最佳研究论文
008 | 精读2017年ICCV最佳学生论文
009 | 如何将“深度强化学习”应用到视觉问答系统?
010 | 精读2017年NIPS最佳研究论文之一:如何解决非凸优化问题?
011 | 精读2017年NIPS最佳研究论文之二:KSD测试如何检验两个分布的异同?
012 | 精读2017年NIPS最佳研究论文之三:如何解决非完美信息博弈问题?
013 | WSDM 2018论文精读:看谷歌团队如何做位置偏差估计
014 | WSDM 2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息
015 | WSDM 2018论文精读:深度学习模型中如何使用上下文信息?
搜索核心技术 (28讲)
031 | 经典搜索核心算法:TF-IDF及其变种
032 | 经典搜索核心算法:BM25及其变种(内附全年目录)
033 | 经典搜索核心算法:语言模型及其变种
034 | 机器学习排序算法:单点法排序学习
035 | 机器学习排序算法:配对法排序学习
036 | 机器学习排序算法:列表法排序学习
037 | “查询关键字理解”三部曲之分类
038 | “查询关键字理解”三部曲之解析
039 | “查询关键字理解”三部曲之扩展
040 | 搜索系统评测,有哪些基础指标?
041 | 搜索系统评测,有哪些高级指标?
042 | 如何评测搜索系统的在线表现?
043 | 文档理解第一步:文档分类
044 | 文档理解的关键步骤:文档聚类
045 | 文档理解的重要特例:多模文档建模
046 | 大型搜索框架宏观视角:发展、特点及趋势
047 | 多轮打分系统概述
048 | 搜索索引及其相关技术概述
049 | PageRank算法的核心思想是什么?
050 | 经典图算法之HITS
051 | 社区检测算法之“模块最大化 ”
052 | 机器学习排序算法经典模型:RankSVM
053 | 机器学习排序算法经典模型:GBDT
054 | 机器学习排序算法经典模型:LambdaMART
055 | 基于深度学习的搜索算法:深度结构化语义模型
056 | 基于深度学习的搜索算法:卷积结构下的隐含语义模型
057 | 基于深度学习的搜索算法:局部和分布表征下的搜索模型
复盘 1 | 搜索核心技术模块
推荐系统核心技术 (22讲)
058 | 简单推荐模型之一:基于流行度的推荐模型
059 | 简单推荐模型之二:基于相似信息的推荐模型
060 | 简单推荐模型之三:基于内容信息的推荐模型
061 | 基于隐变量的模型之一:矩阵分解
062 | 基于隐变量的模型之二:基于回归的矩阵分解
063 | 基于隐变量的模型之三:分解机
064 | 高级推荐模型之一:张量分解模型
065 | 高级推荐模型之二:协同矩阵分解
066 | 高级推荐模型之三:优化复杂目标函数
067 | 推荐的Exploit和Explore算法之一:EE算法综述
068 | 推荐的Exploit和Explore算法之二:UCB算法
069 | 推荐的Exploit和Explore算法之三:汤普森采样算法
070 | 推荐系统评测之一:传统线下评测
071 | 推荐系统评测之二:线上评测
072 | 推荐系统评测之三:无偏差估计
073 | 现代推荐架构剖析之一:基于线下离线计算的推荐架构
074 | 现代推荐架构剖析之二:基于多层搜索架构的推荐系统
075 | 现代推荐架构剖析之三:复杂现代推荐架构漫谈
076 | 基于深度学习的推荐模型之一:受限波兹曼机
077 | 基于深度学习的推荐模型之二:基于RNN的推荐系统
078 | 基于深度学习的推荐模型之三:利用深度学习来扩展推荐系统
复盘 2 | 推荐系统核心技术模块
广告系统核心技术 (0讲)
该章节暂未更新内容,敬请期待
自然语言处理及文本处理核心技术 (17讲)
097 | LDA模型的前世今生
098 | LDA变种模型知多少
099 | 针对大规模数据,如何优化LDA算法?
100 | 基础文本分析模型之一:隐语义分析
101 | 基础文本分析模型之二:概率隐语义分析
102 | 基础文本分析模型之三:EM算法
103 | 为什么需要Word2Vec算法?
104 | Word2Vec算法有哪些扩展模型?
105 | Word2Vec算法有哪些应用?
106 | 序列建模的深度学习利器:RNN基础架构
107 | 基于门机制的RNN架构:LSTM与GRU
108 | RNN在自然语言处理中有哪些应用场景?
109 | 对话系统之经典的对话模型
110 | 任务型对话系统有哪些技术要点?
111 | 聊天机器人有哪些核心技术要点?
112 | 什么是文档情感分类?
113 | 如何来提取情感“实体”和“方面”呢?
计算机视觉核心技术 (0讲)
该章节暂未更新内容,敬请期待
数据科学家与数据科学团队养成 (15讲)
127 | 数据科学家基础能力之概率统计
128 | 数据科学家基础能力之机器学习
129 | 数据科学家基础能力之系统
130 | 数据科学家高阶能力之分析产品
131 | 数据科学家高阶能力之评估产品
132 | 数据科学家高阶能力之如何系统提升产品性能
133 | 职场话题:当数据科学家遇见产品团队
134 | 职场话题:数据科学家应聘要具备哪些能力?
135 | 职场话题:聊聊数据科学家的职场规划
136 | 如何组建一个数据科学团队?
137 | 数据科学团队养成:电话面试指南
138 | 数据科学团队养成:Onsite面试面面观
139 | 成为“香饽饽”的数据科学家,如何衡量他们的工作呢?
140 | 人工智能领域知识体系更新周期只有5~6年,数据科学家如何培养?
141 | 数据科学家团队组织架构:水平还是垂直,这是个问题
热点话题讨论 (2讲)
151 | 精读AlphaGo Zero论文
152 | 2017人工智能技术发展盘点
结束语 (0讲)
该章节暂未更新内容,敬请期待
AI技术内参
登录|注册

033 | 经典搜索核心算法:语言模型及其变种

洪亮劼 2017-11-17

在信息检索和文本挖掘领域,我们之前已经讲过了 TF-IDF 算法和 BM25 算法。TF-IDF 因其简单和实用常常成为很多信息检索任务的第一选择,BM25 则以其坚实的经验公式成了很多工业界实际系统的重要基石。

然而,在信息检索研究者的心里,一直都在寻找一种既容易解释,又能自由扩展,并且在实际使用中效果显著的检索模型。这种情况一直到 20 世纪 90 年代末、21 世纪初才得到了突破,一种叫“语言模型”(Language Model)的新模型得到发展。其后 10 多年的时间里,以语言模型为基础的各类变种可谓层出不穷,成了信息检索和搜索领域的重要研究方向。

今天我就来谈谈语言模型的历史,算法细节和语言模型的重要变种,帮助初学者快速掌握这一模型。

语言模型的历史

语言模型在信息检索中的应用开始于 1998 年的 SIGIR 大会(International ACM SIGIR Conference on Research and Development in Information Retrieval,国际信息检索大会)。来自马萨诸塞州大学阿姆赫斯特分校(UMass Amherst)的信息检索学者杰·庞特(Jay M. Ponte)和布鲁斯·夸夫特(W. Bruce Croft)发表了第一篇应用语言模型的论文,从此开启了一个新的时代。

布鲁斯是信息检索的学术权威。早年他在英国的剑桥大学获得博士学位,之后一直在马萨诸塞州大学阿姆赫斯特分校任教。他于 2003 年获得美国计算机协会 ACM 颁发的“杰拉德·索尔顿奖”,表彰他在信息检索领域所作出的突出贡献。另外,布鲁斯也是 ACM 院士。

从那篇论文发表之后,华人学者翟成祥对于语言模型的贡献也是当仁不让。他的博士论文就是系统性论述语言模型的平滑技术以及各类语言模型的深刻理论内涵。

翟成祥来自中国的南京大学计算机系,并于 1984 年、1987 年和 1990 年分别获得南京大学的学士、硕士和博士学位,2002 年他从美国卡内基梅隆大学计算机系的语言与信息技术研究所获得另外一个博士学位。

翟成祥曾经获得过 2004 年的美国国家科学基金会职业生涯奖(NSF CAREER Award)和 2004 年 ACM SIGIR 最佳论文奖。另外,2004 年翟成祥还获得了著名的美国总统奖(PECASE,Presidential Early Career Award for Scientists and Engineers)。

语言模型详解

语言模型的核心思想是希望用概率模型(Probabilistic Model)来描述查询关键字和目标文档之间的关系。语言模型有很多的类型,最简单的、也是最基础的叫做“查询关键字似然检索模型”(Query Likelihood Retrieval Model)。下面我就来聊一聊这个模型的一些细节。

© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《AI技术内参》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(8)

  • Qi
    这样全用文字讲算法有点似懂非懂,建议举点例子。
    2018-12-28
    4
  • 梁中华
    感觉有点抽象,对没有基础和背景知识的同学理解起来很累,每句话都懂,但串起来还是把握不了这个知识点
    2018-11-13
    3
  • rookie
    EM算法、变分推断、MCMC等
    2019-05-27
    1
  • hiee
    如果能将理论和实践结合起来,这些理论如何解决当前搜索遇到的常见问题,这样会让我们更受益
    2019-08-12
  • 黄德平
    可以用神经网络代替解析形式,通过神经网络的参数拟合这些"参数",梯度下降方法就可以派上用场了
    2018-12-16
  • 淳韵
    没有解析解,就得用梯度下降等优化方法逼近吧?
    2018-10-11
  • 淳韵
    没有解析解,就得用梯度下降等优化方法逼近吧?
    2018-10-11
  • Topic modelling 常用的 LDA 是不是就是基是于语言模型发展而来的呢?

    作者回复: 不完全是。但我们可以把LDA看作是多个语言模型的某种复杂混合。

    2017-11-25
收起评论
8
返回
顶部