AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33454 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

038 | “查询关键字理解”三部曲之解析

查询关键字解析
查询关键字理解

该思维导图由 AI 生成,仅供参考

这周我分享的核心内容是查询关键字理解(Query Understanding)。周一介绍了查询关键字分类(Query Classification)的基本概念和思想。今天,我来讲一个更加精细的查询关键字理解模块:查询关键字解析(Parsing)。
如果说查询关键字分类是对查询关键字的宏观把握,那么,对查询关键字的解析就是微观分析。其实,查询关键字解析是一类技术的统称,我今天就来聊几个比较热的话题。

查询关键字分割

首先,让我们设想这么一个场景,在英文的搜索引擎中,如果一个用户输入的是“White House Opening”这个查询关键字,这个用户的意图(Intent)是什么呢?要想理解用户的意图,我们就得知道用户输入的单词的涵义。
那么,在上面这个查询关键字里,我们到底是分别理解每一个单词“White”、“House”和“Opening”呢,还是“White House”和“Opening”呢,还是有可能“White House Opening”是一个整体呢?这里说的其实就是“查询关键字分割”(Query Segmentation)这个概念。
在刚才的例子中,如何把“White House Opening”进行分割直接关系到搜索结果的质量。试想在一个比较标准的现代搜索引擎里,一般来说,都会有一个模块根据查询关键字来提取“倒排索引”(Inverted Index)中的文档。这个阶段的提取数目一般是几百到几千,这个过程常常被称为“检索流程”(Retrieval Phase)。
当有了这些文档以后,现代搜索引擎会利用比较复杂的排序算法,通常就是我们之前提到过的基于机器学习的排序学习模型,来对文档进行重新排序(Re-Rank)。
你可以看到,在这样两个阶段的流程里,如果好的文档没有在第一个阶段被提取出来,不管第二个阶段的功能有多强大,搜索的整体结果都不可能有多好。而对于“检索流程”而言,在“倒排索引”中进行查询的关键就是使用什么“单词”或者“词组”进行查找。
用刚才的例子来说,就是看文档究竟是符合“White House”,还是“White 或 House”,还是“White House Opening”。很明显,这三种情况得到的文档集合是不尽相同的。如果用户的真实意图是搜索美国总统府白宫的开放时间,那么把这个搜索关键字给分割成“White 或 House”,很明显就会影响提取的文档集合。
那究竟该怎样做查询关键字分割呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

查询关键字理解(Query Understanding)是搜索引擎中至关重要的一环,本文深入探讨了其中的关键问题:查询关键字分割和查询关键字标注。在查询关键字分割方面,作者介绍了基于N元语法、短语互信息和条件随机场等三种主流技术,这些方法有助于提高搜索结果的准确性和质量。而在查询关键字标注方面,文章强调了标注信息对搜索结果的重要性,并介绍了利用伪相关反馈和条件随机场进行查询关键字标注的方法。特别强调了条件随机场在序列信息建模方面的优势。总的来说,本文为读者提供了深入浅出的查询关键字解析技术介绍,为快速了解查询关键字理解模块提供了重要参考。同时,文章还提出了一个思考题,引发读者对中文查询关键字解析的特殊挑战进行思考。通过本文的阅读,读者可以全面了解现代搜索技术中查询关键字理解的重要环节,以及其中的关键技术和挑战。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 颛顼
    想请教下对于查询关键字想去对他进行聚类,然后分析,最好能产生一个结构化的意图树出来,这有什么方法嘛?或者有什么类似的论文参考嘛?

    作者回复: 建议参考Query to Knowledge: Unsupervised Entity Extraction from Shopping Queries using Adaptor Grammars。不完全一样,但是是一个参考。

    2017-11-30
    1
  • 胡杰
    首先中文分词比英文都困难很多,英文基本上不需要分词;第二,中文的语料库也是一个问题,在不同的场景下需要训练不同的语言模型;第三,中文的关键词标注方法也和英文的不一样。
    2020-04-22
    4
  • 金晓烨
    有关思考题, 中文的处理相对英语主要是分词方面复杂度会高很多
    2018-10-16
    1
  • 追逐繁星的孩纸~
    目前想到的,中文查询关键字的解析,依旧是绕不过分词,中文分词有更多的挑战,诸如歧义词、多义词,简繁转换,词语搭配识别等。
    2019-11-13
  • 沛沛
    您好,想问下关键词解析用rnn如何
    2018-06-01
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部