048 | 搜索索引及其相关技术概述
洪亮劼
该思维导图由 AI 生成,仅供参考
本周我们分享的主题是从宏观上来剖析现代搜索架构。周一我介绍了搜索系统的一个大的分类,一类是从 20 世纪 50 年代开始研发并使用的传统文本匹配信息检索系统,一类是从 2000 年开始发展并逐渐成熟的机器学习信息检索系统。周三我们剖析了搜索系统的另一个框架体系,多轮打分系统,阐述了为什么需要多轮打分,以及每一轮打分又有什么特性。
今天,我们来看一个在本周已经反复涉及到的话题:倒排索引(Inverted Index)。一起来聊聊它的核心技术。值得注意的是,关于索引的很多话题其实都会牵涉到搜索中的“查询关键字处理”(Query Processing),我们今天的分享就主要来谈谈索引及相关技术在“查询关键字处理”这个场景下的应用。
经典的索引结构
经典的索引结构由“字段”(Field)和对应的列表组成。一般来说,“字段”就是某一个查询关键字。在英文里,这就是一个单独的单词;在中文里,这也许就是一个词或者短语。每个字段所对应的列表就是包含这个查询关键字的文档列表。
有两点值得注意。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
索引结构是现代搜索技术的核心组成部分,其中倒排索引系统是重要的一部分。倒排索引由字段和对应的文档列表组成,通过存储文档编号和相关信息来实现高效的信息检索。索引技术包括压缩和略过等方法,以提高索引的效率和处理速度。在查询关键字处理方面,文档优先和词优先是两种基本策略,为优化查询处理提供了基础。文章还提出了一个思考题:如何构建同时包含图像信息和文字信息的索引。这篇文章深入浅出地介绍了现代搜索技术的核心组成部分,为读者提供了全面的了解。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 风的轨迹不好意思老师,我不太明白“查询关键字处理”的目的是什么。在倒排索引中,不是已经把文档按照相关度进行排序了吗?直接从倒排索引中取出来展示不就行了吗,为什么还要进行查询关键字处理2018-07-061
- 嘉彦文档优先策略中先根据分数选top K个文档,这个分数是仅仅关于文档的分数吧,类似于文档的重要程度。应该和查询关键字的相关度无关?2018-04-14
收起评论