046 | 大型搜索框架宏观视角:发展、特点及趋势
洪亮劼

我们在前几周的专栏里讲解了一系列最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank)。然后我们花了一定的时间讨论了两个关键搜索组件的核心技术要点,包括查询关键字理解(Query Understanding)和文档理解(Document Understanding)。除此之外,我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。相信你已经对搜索系统的各个基本组成部分有了一个比较基础的把握。
那么,今天我们就第一次从整体上来看看大型搜索系统框架的演变和历史发展,给你一个宏观的认识。相信有了之前的基础知识铺垫,我们今天的分享会让你感觉到水到渠成。
基于文本匹配的信息检索系统
我们在介绍 TF-IDF 和 BM25 这些经典信息检索系统的时候,其实就已经介绍了不少基于文本匹配的基本的信息检索系统的核心概念。
实际上,从 20 世纪 50 年代有信息检索系统开始一直到 2000 年前后,这种纯粹基于文本匹配的搜索系统一直都是主流搜索系统的基础所在。甚至当前的很多开源搜索框架也都是基于这种最基本的信息检索系统的。
总结一下,这种信息检索系统有这么几个特点。
首先,文本匹配系统的基础是一个倒排索引(Inverted Index)。索引中的“字段”是某一个查询关键字。而每个字段所对应的则是包含这个查询关键字的文档列表。这个文档列表大多按照某种重要的顺序排列。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 范深通过机器学习决定索引的排序顺序,是否有助于索引的效率优化和查全率?
作者回复: 这是目前的一个研究方向。
3
收起评论