AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

046 | 大型搜索框架宏观视角:发展、特点及趋势

深度强化学习
数据异常
模型异常
数据要求
预测相关度
多模数据融合
算法
特性
目标函数
通用的机器学习语言
不依赖机器学习
索引性能优化
索引压缩
优化构建索引
用户偏好的评测方式
深度学习技术
不足
利用多模数据
理论支持
优势
难以处理多模数据
传统检索方法的依赖
倒排索引
BM25
TF-IDF
更加智能的搜索系统
基于机器学习的信息检索系统
基于文本匹配的信息检索系统
趋势
特点
发展
大型搜索框架宏观视角

该思维导图由 AI 生成,仅供参考

我们在前几周的专栏里讲解了一系列最经典的信息检索(Information Retrieval)技术以及基于机器学习的排序学习算法(Learning to Rank)。然后我们花了一定的时间讨论了两个关键搜索组件的核心技术要点,包括查询关键字理解(Query Understanding)和文档理解(Document Understanding)。除此之外,我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。相信你已经对搜索系统的各个基本组成部分有了一个比较基础的把握。
那么,今天我们就第一次从整体上来看看大型搜索系统框架的演变和历史发展,给你一个宏观的认识。相信有了之前的基础知识铺垫,我们今天的分享会让你感觉到水到渠成。

基于文本匹配的信息检索系统

我们在介绍 TF-IDF 和 BM25 这些经典信息检索系统的时候,其实就已经介绍了不少基于文本匹配的基本的信息检索系统的核心概念。
实际上,从 20 世纪 50 年代有信息检索系统开始一直到 2000 年前后,这种纯粹基于文本匹配的搜索系统一直都是主流搜索系统的基础所在。甚至当前的很多开源搜索框架也都是基于这种最基本的信息检索系统的。
总结一下,这种信息检索系统有这么几个特点。
首先,文本匹配系统的基础是一个倒排索引(Inverted Index)。索引中的“字段”是某一个查询关键字。而每个字段所对应的则是包含这个查询关键字的文档列表。这个文档列表大多按照某种重要的顺序排列。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

大型搜索框架宏观视角:发展、特点及趋势 搜索系统的发展经历了基于文本匹配的信息检索系统和基于机器学习的信息检索系统两个阶段。基于文本匹配的系统使用倒排索引,依赖传统的检索方法,但缺乏理论基础和处理多模数据的能力。而基于机器学习的系统则具有一整套的理论支持,能够利用多模数据,并且开启了提高搜索系统效果的大门。然而,基于机器学习的系统也面临着数据质量、模型异常等问题。未来,搜索系统的发展趋势包括利用深度学习技术和研究更加有意义的评测方式,以进一步提升系统性能。 这篇文章从宏观视角总结了大型搜索系统框架的演变和历史发展,介绍了基于文本匹配和基于机器学习的信息检索系统的特点和优劣势,以及未来搜索系统的发展趋势。文章内容涵盖了搜索系统技术的演进和创新,对于了解搜索系统的发展历程和未来趋势具有重要参考价值。 文章以宏观视角探讨了大型搜索系统框架的发展历程和技术特点。首先介绍了基于文本匹配和基于机器学习的信息检索系统的特点和优劣势,强调了基于机器学习系统的理论支持和多模数据利用能力。同时,也指出了该系统面临的数据质量和模型异常等问题。最后,展望了搜索系统的未来发展趋势,包括利用深度学习技术和研究更加有意义的评测方式以提升系统性能。这篇文章对于读者快速了解搜索系统技术的演进和未来趋势具有重要参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 范深
    通过机器学习决定索引的排序顺序,是否有助于索引的效率优化和查全率?

    作者回复: 这是目前的一个研究方向。

    2017-12-18
    3
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部