AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

048 | 搜索索引及其相关技术概述

查询关键字在文档中出现的位置
词频
文档编号
词优先计算策略
文档优先计算策略
略过技术
差值编码
索引压缩技术
索引中存放的信息
包含查询关键字的文档列表
文档列表的重要顺序排列
字段和对应的列表
图像信息和文字信息的索引构建
查询关键字处理
索引技术
经典的索引结构
机器学习信息检索系统
传统文本匹配信息检索系统
思考题
倒排索引
多轮打分系统
现代搜索架构
文章主题

该思维导图由 AI 生成,仅供参考

本周我们分享的主题是从宏观上来剖析现代搜索架构。周一我介绍了搜索系统的一个大的分类,一类是从 20 世纪 50 年代开始研发并使用的传统文本匹配信息检索系统,一类是从 2000 年开始发展并逐渐成熟的机器学习信息检索系统。周三我们剖析了搜索系统的另一个框架体系,多轮打分系统,阐述了为什么需要多轮打分,以及每一轮打分又有什么特性。
今天,我们来看一个在本周已经反复涉及到的话题:倒排索引(Inverted Index)。一起来聊聊它的核心技术。值得注意的是,关于索引的很多话题其实都会牵涉到搜索中的“查询关键字处理”(Query Processing),我们今天的分享就主要来谈谈索引及相关技术在“查询关键字处理”这个场景下的应用。

经典的索引结构

经典的索引结构由“字段”(Field)和对应的列表组成。一般来说,“字段”就是某一个查询关键字。在英文里,这就是一个单独的单词;在中文里,这也许就是一个词或者短语。每个字段所对应的列表就是包含这个查询关键字的文档列表。
有两点值得注意
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

索引结构是现代搜索技术的核心组成部分,其中倒排索引系统是重要的一部分。倒排索引由字段和对应的文档列表组成,通过存储文档编号和相关信息来实现高效的信息检索。索引技术包括压缩和略过等方法,以提高索引的效率和处理速度。在查询关键字处理方面,文档优先和词优先是两种基本策略,为优化查询处理提供了基础。文章还提出了一个思考题:如何构建同时包含图像信息和文字信息的索引。这篇文章深入浅出地介绍了现代搜索技术的核心组成部分,为读者提供了全面的了解。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • 风的轨迹
    不好意思老师,我不太明白“查询关键字处理”的目的是什么。在倒排索引中,不是已经把文档按照相关度进行排序了吗?直接从倒排索引中取出来展示不就行了吗,为什么还要进行查询关键字处理
    2018-07-06
    1
  • 嘉彦
    文档优先策略中先根据分数选top K个文档,这个分数是仅仅关于文档的分数吧,类似于文档的重要程度。应该和查询关键字的相关度无关?
    2018-04-14
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部