037 | “查询关键字理解”三部曲之分类
洪亮劼
该思维导图由 AI 生成,仅供参考
我们在前两周的专栏里主要讲解了最经典的信息检索(Information Retrieval)技术和基于机器学习的排序算法(Learning to Rank)。
经典的信息检索技术为 2000 年之前的搜索引擎提供了基本的算法支持。从中衍生出的 TF-IDF、BM25 还有语言模型(Language Model)以及这些方法的各类变种都还在很多领域(不限文本)里继续发挥着作用。
另一方面,排序学习算法引领了 2000 年到 2010 年各类基于机器学习的搜索算法的产生和发展,也带来了搜索引擎技术的进一步成熟。
这周我们从排序算法转移到排序问题中一个非常重要的部分:查询关键字理解(Query Understanding)。也就是说,我们希望通过查询关键字来了解用户种种行为背后的目的。查询关键字产生的特征(Feature)往往是很强的指导因素,也是个性化搜索结果非常重要的源泉。因此,深入了解并掌握查询关键字理解方面的技术就变得很有必要。
查询关键字理解最基本的一个步骤就是给查询关键字分类(Classification),看这些查询关键字有什么用户意图(Intent)。今天我就来聊一聊查询关键字分类的一些基本概念和技术,让你对这方面的开发和研究有一个基本认识。
查询关键字分类的历史
从商业搜索引擎开始面世的第一天起,人们就发现,可以从查询关键字中得到很多用户的信息,特别是理解用户的意图。早在 1997 年,商业搜索引擎 Excite 就开始了百万级别查询关键字的研究工作。然而,真正对查询关键字分类进行系统阐述的是安德烈·布罗德(Andrei Broder)的论文《网页搜索分类》(A Taxonomy of Web Search)。
安德烈很有名头,在斯坦福大学攻读博士期间师从图灵奖得主高德纳(Donald Knuth),然后在曾经名噪一时的第一代搜索引擎公司 AltaVista(后被雅虎收购)担任首席科学家,之后加入位于纽约的 IBM 研究院组建企业级搜索平台,2012 年后加入 Google,担任杰出科学家(Distinguished Scientist)。他还是 ACM(Association of Computing Machinery,计算机协会)和 IEEE(Institute of Electrical and Electronics Engineers,电气电子工程师学会)的双料院士。
安德烈的这篇论文可以说是奠定了查询关键字分类的坚实基础。这之后研究人员的很多工作都是围绕着如何自动化分类、如何定义更加精细的用户意图来展开的。
查询关键字分类详解
我就从安德烈这篇非常有名的文章说起。在网络搜索(Web Search)成为比较主流的咨询查询手段之前,传统的信息检索认为,查询的主要目的是完成一个抽象的“信息需求”(Information Needs)。在传统信息检索的世界里,最主要的应用应该是图书馆检索或者政府学校等企事业单位的检索。因此,在这样的场景下,假定每一个查询主要是满足某个“信息需求”就显得很有道理了。
然而,早在 2002 年,安德烈就认为这样的传统假定已经不适合网络时代了。他开始把查询关键字所代表的目的划分为三个大类:
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
查询关键字分类是信息检索领域中的重要技术,旨在理解用户意图,为个性化搜索结果提供依据。安德烈·布罗德的论文《网页搜索分类》奠定了查询关键字分类的基础,将查询关键字分为导航目的、信息目的和交易目的三类。这种分类为理解用户行为提供了重要模型,但依靠用户直接反馈获取信息意图变得困难。因此,将查询关键字分类问题转换成标准的机器学习任务成为解决方案。在实际应用中,特征选取是关键,包括查询关键字本身的信息、搜索引擎返回的页面信息以及用户行为信息。然而,处理从未出现过的关键字和低频关键字仍是挑战。总的来说,查询关键字分类技术对于理解用户意图、实现个性化搜索结果具有重要意义。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 张岩kris符合分类的搜索结果赋予更大的排序权重吧?
作者回复: 这是一种思路。
2017-11-303 - 罗马工匠低频关键字的论文能列几篇么?
作者回复: 不太明白你需要哪方面的?
2017-12-0721
收起评论