055 | 基于深度学习的搜索算法：深度结构化语义模型

洪亮劼



该思维导图由 AI 生成，仅供参考

近两个月，我们集中系统地分享了搜索核心技术模块。做一个简单的内容梳理，我们讲解了搜索引擎方方面面的话题，从经典的信息检索技术、查询关键字理解、文档理解到现代搜索引擎的架构和索引的核心技术；还从机器学习角度出发分享了搜索引擎的最核心部分，也就是排序算法，深入排序算法的细节讲解了排序支持向量机（RankSVM）、梯度增强决策树（GBDT）以及经典模型 LambdaMART。至此，整个人工智能领域关于搜索的经典话题也就告一段落了。
那么，这个星期，我们来看一些关于搜索算法的前沿思考。火热的深度学习不仅对图像、视频和音频这些领域产生了巨大的冲击，也对自然语言处理、甚至搜索领域有不小的影响。深度学习带给传统的模型和算法以新的建模能力和新的视角，为以前所不能完成的应用打下了基础。
今天，我们来看一篇较早利用深度学习技术来进行搜索建模的论文：《使用点击数据学习深度结构化的网络搜索语义模型》（Learning deep structured semantic models for web search using clickthrough data）。这篇论文阐述了一个深度结构化语义模型，发表在第 22 届世界信息和知识管理大会 CIKM 2013 上。
论文背景介绍发表于 2013 年的这篇论文应该算是比较早的直接使用深度学习中经验的论文。其主要目的是探索一些经典的深度学习方法能否在搜索的应用中得到合适的效果。
下面我们来了解一下这篇论文的作者群信息。
第一作者黄博森（Po-Sen Huang）是一名来自台湾的学者。在发表论文的时候，他在伊利诺伊大学香槟分校攻读电子工程和计算机博士学位，师从马克·约翰森（Mark Hasegawa-Johnson）。论文是黄博森在微软实习时的工作总结。2015 年黄博森博士毕业，然后于 2016 年加入了微软研究院。到目前为止，他发表了 30 多篇人工智能相关的论文，论文引用次数已经超过 1 千多次。
其他作者均来自当时在微软研究院工作的学者。其中不乏著名学者，比如何晓冬（Xiaodong He）、邓力（Li Deng）、亚历克斯·阿西罗（Alex Acero）和拉里·赫克（Larry Heck）等。下面聊聊比较少被提及的阿西罗和赫克。阿西罗曾长期在微软研究院担任语音相关研究组的经理职位，2013 年之后，他到苹果公司担任 Siri 的资深总监。赫克曾经在雅虎担任搜索和广告业务副总裁，然后到微软研究院担任语音组的首席科学家。文章发表之后，赫克到了谷歌，在一个人工智能组担任总监，并于最近加入三星北美研究院担任资深副总裁。这些学者主要是为这个工作提供支持和指导工作。
这篇论文自 2013 年发表后已经有超过 390 多次的引用，是深度学习在搜索领域应用中被引用次数最多的论文之一。
深度结构化语义模型详解下面详细讲讲这篇论文的核心思想。要想理解这篇论文提出的思路，我们首先要简单回顾一下经典的搜索模型构建。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

深度学习技术在搜索算法中的应用是一项备受关注的研究领域。本文介绍了一篇发表于2013年的论文《使用点击数据学习深度结构化的网络搜索语义模型》，该论文探索了深度学习方法在搜索应用中的效果。作者通过深度结构化语义模型对查询关键字和文档进行处理，利用深度学习中的非线性转换和余弦函数来获取数据深层次的语义信息，并利用用户点击信息进行模型训练。实验结果显示，深度结构化语义模型在NDCG指标上表现不错，但并未取得特别惊人的效果。这表明深度学习技术在搜索算法中的应用具有潜力，但仍需进一步探索和改进。该论文的发表为深度学习在搜索领域的应用奠定了基础，成为深度学习在搜索领域应用中被引用次数最多的论文之一。深度结构化语义模型利用深度学习技术改进搜索算法，虽然实验结果并未取得特别惊人的效果，但为深度学习在搜索领域的应用奠定了基础。该模型通过处理查询关键字和文档，利用非线性转换和余弦函数获取深层次的语义信息，并利用用户点击信息进行模型训练。这一研究为深度学习技术在搜索算法中的应用提供了有益的探索，为未来的研究和改进提供了借鉴。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

麻离弦
既然是分类问题，那么对doc进行分类后要如何排序呢？
2019-05-03


hello_word
可以用 KL divergence，不过不知道是否容易优化。请洪教主指点😂
2018-01-09



收起评论