039 | “查询关键字理解”三部曲之扩展

洪亮劼



该思维导图由 AI 生成，仅供参考

我们在本周的前两篇文章中分别介绍了查询关键字分类（Query Classification）和查询关键字解析（Query Parsing）的基本概念和思想。今天，我来讲一个稍微有一些不同的查询关键字理解模块：查询关键字扩展（Query Expansion）。
查询关键字扩展想要解决的问题和分类以及解析略微不同。其主要目的不仅仅是希望能够对用户输入的关键字进行理解，还希望能够补充用户输入的信息，从而达到丰富查询结果的效果。
查询关键字扩展的概念为什么要提供查询关键字扩展？主要原因还是用户输入的查询关键字信息不足。还记得我们上次提到的“苹果价格”这个例子吗？在这个例子中，用户到底是希望查询“苹果”作为一种水果的价格，还是“苹果”作为手机的价格，其实无法真正从这个查询关键字中得出。因此，作为搜索引擎，如果为用户提供一些“扩展选项”，也就是一个被改写（Reformulated）过的查询关键字，会提供更加好的用户体验和更加精准的搜索结果。
查询关键字扩展除了显示出来能够让用户有更好的体验以外，还有一个作用是增加文档的“召回”（Recall），从而为提高搜索结果奠定基础。设想这样一个例子，用户搜索“iphone 6 backup”，希望了解如何备份 iPhone 6 的信息。因为苹果手机的绝大多数机型的备份流程都大同小异，因此，如果把“iphone 6”给扩展到“iphone”其他机型，然后看是否有比较好的介绍备份的网页可以显示。
值得注意的是，在扩展的过程中也有可能失去“精度”（Precision）。比如假设苹果对 iPhone 7 的备份流程做了很大的改进，那么其他机型的流程也许就不适用了，所以当用户搜索“iphone 7 backup”的时候，如果我们扩展到了其他机型，那让用户看到的很可能就是不那么相关的信息了。因此，对“精度”和“召回”的平衡，成了查询关键字扩展的一个重要的权衡点。
查询关键字扩展的另外一个重要应用就是对同义词和缩写的处理。比如，唐纳德·特朗普（Donald Trump）是美国现任总统。那么，如果用户在搜索“Donald Trump”、“Trump”、“US President”、“POTUS”（这是“President Of The United States”的简称）等类似词汇的时候，搜索引擎应该提供相似的结果。而从词汇的直接联系上，这些词汇在表面形式上可能有很大的差异（比如“Trump”和“POTUS”），因此需要其他手段学习到这些词语内涵的同义。
查询关键字扩展的技术知道了查询关键字扩展的含义以后，我们就来看看有哪些技术可以为查询关键字扩展提供支持。
根据上面提供的一些例子，你可以看到，这里的核心就是找到搜索结果意义上的“同义词”。那么，在搜索中，如何挖掘“同义词”呢？
今天我在这里分享两种思路。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

查询关键字扩展是搜索引擎中的重要模块，旨在通过补充用户输入的信息，丰富查询结果，提高搜索结果的准确性和用户体验。本文介绍了查询关键字扩展的概念和技术。在概念方面，文章指出查询关键字扩展的主要原因是用户输入的查询关键字信息不足，同时强调了在扩展过程中需要平衡“精度”和“召回”的重要性。技术方面，文章提到了两种思路：一是基于用户搜索行为数据进行同义效果挖掘，二是从海量文本信息中分析词语之间的相关度，通过词嵌入向量找到同义词。这些技术方法为查询关键字扩展提供了支持，其中涉及到了图挖掘技术和词嵌入向量等。文章还提到了一些相关的参考文献，为读者提供了进一步深入研究的方向。总之，查询关键字扩展技术的应用对于提高搜索引擎的效果和用户体验具有重要意义。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(3)

最新
精选

极客星星
洪老师你好刚好最近在做查询扩展的工作您的文章真是雪中送炭。有两个问题想咨询下 1扩展后的词索引得到的结果和原有词的结果如何放在一起排序?2我想用第一种方法来实现扩展这种方案除了文中提到的二分图方法还有没有其他方法呢譬如推荐系统中的协同过滤的方法是不是也可以用在这里.谢谢
作者回复: 协同或者也有用Matrix Factorization的。
2017-12-03

2
老敖
加个人工互动反馈的环节？看看是否扩展出来的结果是否满意，有点类似于推荐系统那种。
作者回复: 人工互动是一种思路，但是可能没法大规模化。
2017-12-04


追逐繁星的孩纸~
思考题，如何来测试查询关键字扩展的优劣呢？我的回答：有个想法，可以通过记录分析用户的行为日志来进行测试。比如，扩展词的列表项中，用户的点击率；通过关键字扩展得到的搜索结果中，用户的点击行为所得到的搜索评测指标是不是更优了。
2019-11-13



收起评论