046 | 大型搜索框架宏观视角：发展、特点及趋势

洪亮劼



该思维导图由 AI 生成，仅供参考

我们在前几周的专栏里讲解了一系列最经典的信息检索（Information Retrieval）技术以及基于机器学习的排序学习算法（Learning to Rank）。然后我们花了一定的时间讨论了两个关键搜索组件的核心技术要点，包括查询关键字理解（Query Understanding）和文档理解（Document Understanding）。除此之外，我们还详细讨论了如何从线上和线下两个层面来评价一个搜索系统。相信你已经对搜索系统的各个基本组成部分有了一个比较基础的把握。
那么，今天我们就第一次从整体上来看看大型搜索系统框架的演变和历史发展，给你一个宏观的认识。相信有了之前的基础知识铺垫，我们今天的分享会让你感觉到水到渠成。
基于文本匹配的信息检索系统我们在介绍 TF-IDF 和 BM25 这些经典信息检索系统的时候，其实就已经介绍了不少基于文本匹配的基本的信息检索系统的核心概念。
实际上，从 20 世纪 50 年代有信息检索系统开始一直到 2000 年前后，这种纯粹基于文本匹配的搜索系统一直都是主流搜索系统的基础所在。甚至当前的很多开源搜索框架也都是基于这种最基本的信息检索系统的。
总结一下，这种信息检索系统有这么几个特点。
首先，文本匹配系统的基础是一个倒排索引（Inverted Index）。索引中的“字段”是某一个查询关键字。而每个字段所对应的则是包含这个查询关键字的文档列表。这个文档列表大多按照某种重要的顺序排列。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

大型搜索框架宏观视角：发展、特点及趋势搜索系统的发展经历了基于文本匹配的信息检索系统和基于机器学习的信息检索系统两个阶段。基于文本匹配的系统使用倒排索引，依赖传统的检索方法，但缺乏理论基础和处理多模数据的能力。而基于机器学习的系统则具有一整套的理论支持，能够利用多模数据，并且开启了提高搜索系统效果的大门。然而，基于机器学习的系统也面临着数据质量、模型异常等问题。未来，搜索系统的发展趋势包括利用深度学习技术和研究更加有意义的评测方式，以进一步提升系统性能。这篇文章从宏观视角总结了大型搜索系统框架的演变和历史发展，介绍了基于文本匹配和基于机器学习的信息检索系统的特点和优劣势，以及未来搜索系统的发展趋势。文章内容涵盖了搜索系统技术的演进和创新，对于了解搜索系统的发展历程和未来趋势具有重要参考价值。文章以宏观视角探讨了大型搜索系统框架的发展历程和技术特点。首先介绍了基于文本匹配和基于机器学习的信息检索系统的特点和优劣势，强调了基于机器学习系统的理论支持和多模数据利用能力。同时，也指出了该系统面临的数据质量和模型异常等问题。最后，展望了搜索系统的未来发展趋势，包括利用深度学习技术和研究更加有意义的评测方式以提升系统性能。这篇文章对于读者快速了解搜索系统技术的演进和未来趋势具有重要参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

范深
通过机器学习决定索引的排序顺序，是否有助于索引的效率优化和查全率？
作者回复: 这是目前的一个研究方向。
2017-12-18

3

收起评论