AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

039 | “查询关键字理解”三部曲之扩展

我们在本周的前两篇文章中分别介绍了查询关键字分类(Query Classification)和查询关键字解析(Query Parsing)的基本概念和思想。今天,我来讲一个稍微有一些不同的查询关键字理解模块:查询关键字扩展(Query Expansion)。
查询关键字扩展想要解决的问题和分类以及解析略微不同。其主要目的不仅仅是希望能够对用户输入的关键字进行理解,还希望能够补充用户输入的信息,从而达到丰富查询结果的效果。

查询关键字扩展的概念

为什么要提供查询关键字扩展?主要原因还是用户输入的查询关键字信息不足。还记得我们上次提到的“苹果价格”这个例子吗?在这个例子中,用户到底是希望查询“苹果”作为一种水果的价格,还是“苹果”作为手机的价格,其实无法真正从这个查询关键字中得出。因此,作为搜索引擎,如果为用户提供一些“扩展选项”,也就是一个被改写(Reformulated)过的查询关键字,会提供更加好的用户体验和更加精准的搜索结果。
查询关键字扩展除了显示出来能够让用户有更好的体验以外,还有一个作用是增加文档的“召回”(Recall),从而为提高搜索结果奠定基础。设想这样一个例子,用户搜索“iphone 6 backup”,希望了解如何备份 iPhone 6 的信息。因为苹果手机的绝大多数机型的备份流程都大同小异,因此,如果把“iphone 6”给扩展到“iphone”其他机型,然后看是否有比较好的介绍备份的网页可以显示。
值得注意的是,在扩展的过程中也有可能失去“精度”(Precision)。比如假设苹果对 iPhone 7 的备份流程做了很大的改进,那么其他机型的流程也许就不适用了,所以当用户搜索“iphone 7 backup”的时候,如果我们扩展到了其他机型,那让用户看到的很可能就是不那么相关的信息了。因此,对“精度”和“召回”的平衡,成了查询关键字扩展的一个重要的权衡点
查询关键字扩展的另外一个重要应用就是对同义词和缩写的处理。比如,唐纳德·特朗普(Donald Trump)是美国现任总统。那么,如果用户在搜索“Donald Trump”、“Trump”、“US President”、“POTUS”(这是“President Of The United States”的简称)等类似词汇的时候,搜索引擎应该提供相似的结果。而从词汇的直接联系上,这些词汇在表面形式上可能有很大的差异(比如“Trump”和“POTUS”),因此需要其他手段学习到这些词语内涵的同义。

查询关键字扩展的技术

知道了查询关键字扩展的含义以后,我们就来看看有哪些技术可以为查询关键字扩展提供支持。
根据上面提供的一些例子,你可以看到,这里的核心就是找到搜索结果意义上的“同义词”。那么,在搜索中,如何挖掘“同义词”呢?
今天我在这里分享两种思路。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • 极客星星
    洪老师你好 刚好最近在做查询扩展的工作 您的文章真是雪中送炭。有两个问题想咨询下 1扩展后的词索引得到的结果 和原有词的结果如何放在一起排序?2我想用第一种方法来实现扩展 这种方案除了文中 提到的二分图方法 还有没有其他方法呢 譬如推荐系统中的协同过滤的方法是不是也可以用在这里.谢谢

    作者回复: 协同或者也有用Matrix Factorization的。

    2
  • 老敖
    加个人工互动反馈的环节?看看是否扩展出来的结果是否满意,有点类似于推荐系统那种。

    作者回复: 人工互动是一种思路,但是可能没法大规模化。

  • 追逐繁星的孩纸~
    思考题,如何来测试查询关键字扩展的优劣呢? 我的回答:有个想法,可以通过记录分析用户的行为日志来进行测试。比如,扩展词的列表项中,用户的点击率;通过关键字扩展得到的搜索结果中,用户的点击行为所得到的搜索评测指标是不是更优了。
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部