038 | “查询关键字理解”三部曲之解析

洪亮劼



该思维导图由 AI 生成，仅供参考

这周我分享的核心内容是查询关键字理解（Query Understanding）。周一介绍了查询关键字分类（Query Classification）的基本概念和思想。今天，我来讲一个更加精细的查询关键字理解模块：查询关键字解析（Parsing）。
如果说查询关键字分类是对查询关键字的宏观把握，那么，对查询关键字的解析就是微观分析。其实，查询关键字解析是一类技术的统称，我今天就来聊几个比较热的话题。
查询关键字分割首先，让我们设想这么一个场景，在英文的搜索引擎中，如果一个用户输入的是“White House Opening”这个查询关键字，这个用户的意图（Intent）是什么呢？要想理解用户的意图，我们就得知道用户输入的单词的涵义。
那么，在上面这个查询关键字里，我们到底是分别理解每一个单词“White”、“House”和“Opening”呢，还是“White House”和“Opening”呢，还是有可能“White House Opening”是一个整体呢？这里说的其实就是“查询关键字分割”（Query Segmentation）这个概念。
在刚才的例子中，如何把“White House Opening”进行分割直接关系到搜索结果的质量。试想在一个比较标准的现代搜索引擎里，一般来说，都会有一个模块根据查询关键字来提取“倒排索引”（Inverted Index）中的文档。这个阶段的提取数目一般是几百到几千，这个过程常常被称为“检索流程”（Retrieval Phase）。
当有了这些文档以后，现代搜索引擎会利用比较复杂的排序算法，通常就是我们之前提到过的基于机器学习的排序学习模型，来对文档进行重新排序（Re-Rank）。
你可以看到，在这样两个阶段的流程里，如果好的文档没有在第一个阶段被提取出来，不管第二个阶段的功能有多强大，搜索的整体结果都不可能有多好。而对于“检索流程”而言，在“倒排索引”中进行查询的关键就是使用什么“单词”或者“词组”进行查找。
用刚才的例子来说，就是看文档究竟是符合“White House”，还是“White 或 House”，还是“White House Opening”。很明显，这三种情况得到的文档集合是不尽相同的。如果用户的真实意图是搜索美国总统府白宫的开放时间，那么把这个搜索关键字给分割成“White 或 House”，很明显就会影响提取的文档集合。
那究竟该怎样做查询关键字分割呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

查询关键字理解（Query Understanding）是搜索引擎中至关重要的一环，本文深入探讨了其中的关键问题：查询关键字分割和查询关键字标注。在查询关键字分割方面，作者介绍了基于N元语法、短语互信息和条件随机场等三种主流技术，这些方法有助于提高搜索结果的准确性和质量。而在查询关键字标注方面，文章强调了标注信息对搜索结果的重要性，并介绍了利用伪相关反馈和条件随机场进行查询关键字标注的方法。特别强调了条件随机场在序列信息建模方面的优势。总的来说，本文为读者提供了深入浅出的查询关键字解析技术介绍，为快速了解查询关键字理解模块提供了重要参考。同时，文章还提出了一个思考题，引发读者对中文查询关键字解析的特殊挑战进行思考。通过本文的阅读，读者可以全面了解现代搜索技术中查询关键字理解的重要环节，以及其中的关键技术和挑战。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(5)

最新
精选

颛顼
想请教下对于查询关键字想去对他进行聚类，然后分析，最好能产生一个结构化的意图树出来，这有什么方法嘛？或者有什么类似的论文参考嘛？
作者回复: 建议参考Query to Knowledge: Unsupervised Entity Extraction from Shopping Queries using Adaptor Grammars。不完全一样，但是是一个参考。
2017-11-30

1
胡杰
首先中文分词比英文都困难很多，英文基本上不需要分词；第二，中文的语料库也是一个问题，在不同的场景下需要训练不同的语言模型；第三，中文的关键词标注方法也和英文的不一样。
2020-04-22

4
金晓烨
有关思考题, 中文的处理相对英语主要是分词方面复杂度会高很多
2018-10-16

1
追逐繁星的孩纸~
目前想到的，中文查询关键字的解析，依旧是绕不过分词，中文分词有更多的挑战，诸如歧义词、多义词，简繁转换，词语搭配识别等。
2019-11-13


沛沛
您好，想问下关键词解析用rnn如何
2018-06-01



收起评论