检索技术核心 20 讲
从搜索引擎到推荐引擎,带你吃透检索
陈东  前数禾科技 CTO,前奇虎 360 商业化资深总监
专栏
已完结·共 29 讲
|
2.2w 人已学
|
收藏
Roaring Bitmap 就基于这个思路,对低 16 位的位图部分进行了优化:如果一个桶中存储的数据少于 4096 个,我们就不使用位图,而是直接使用 short 型的有序数组存储数据。同时,我们使用可变长数组机制,让数组的初始化长度是 4,随着元素的增加再逐步调整数组长度,上限是 4096。这样一来,存储空间就会低于 8K,也就小于使用位图所占用的存储空间了
来自:特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?
5 人划过
跳表用一种更简单的方式实现了检索空间的平衡。并且,由于跳表保持了链表顺序遍历的能力,在需要遍历功能的场景中,跳表会比红黑树用起来更方便。
来自:02 | 非线性结构检索:数据频繁变化的情况下,如何高效检索?
4 人划过
这样我们就能把排序的时间代价降低到 O(n) + O(k log n)(即建堆时间 + 在堆中选择最大的 k 个值的时间),而不是原来的 O(n log n)
来自:11|精准Top K检索:搜索结果是怎么进行打分排序的?
4 人划过
如果这个数据是详细信息的位置指针,那我们还需要再访问磁盘一次,将详细信息读出。
来自:06 | 数据库检索:如何使用B+树对海量磁盘数据建立索引?
3 人划过
检索技术:它是更底层的通用技术,它研究的是如何将我们所需的数据高效地取出来。
来自:开篇词 | 学会检索,快人一步!
3 人划过
在多路归并生成第 n 层的 SSTable 文件时,LevelDB 会判断生成的 SSTable 和第 n+1 层的重合覆盖度,如果重合覆盖度超过了 10 个文件,就结束这个 SSTable 的生成,继续生成下一个 SSTable 文件
来自:17 | 存储系统:从检索技术角度剖析LevelDB的架构设计思想
3 人划过
当索引拆分以后,每台服务器上加载的数据都会比全量数据少,那每台服务器上的单次查询所消耗的时间也就随之减少了。
来自:10 | 索引拆分:大规模检索系统如何使用分布式技术加速检索?
3 人划过
以认为“位图是只有一个特殊的哈希函数,且没有被压缩长度的布隆过滤器
来自:04 | 状态检索:如何快速判断一个用户是否存在?
3 人划过
在 A 和 B 这两个链表中查找出公共元素呢
来自:05 | 倒排索引:如何从海量数据中查询同时带有“极”和“客”的唐诗?
3 人划过
*精彩内容为该课程各文章中划线次数最多的内容
免费试读
讲师

陈东

前数禾科技 CTO,前奇虎 360 商业化资深总监

陈东,前数禾科技 CTO,以数据和技术驱动,为金融机构提供高效的智能零售金融解决方案。曾任奇虎 360 商业化资深总监,负责展示广告的研发管理和产品创新。 在互联网广告行业深耕十余年,致力于弹性分布式系统架构、检索引擎与推荐系统等技术方向。
编辑推荐
包含这门课的学习路径

后端工程师

27门课程 184.1w人学习
看过的人还看了
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 224938 人已学习

¥68¥199
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283805 人已学习

¥68¥199
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 181001 人已学习

¥98¥399
设计模式之美
王争
前 Google 工程师,《数据结构与算法之美》专栏作者

113讲 | 123470 人已学习

¥98¥299
从 0 开始学架构
李运华
网名“华仔”,前阿里资深技术专家(P9)

66讲 | 152624 人已学习

¥68¥199
深入剖析 Kubernetes
张磊
Kubernetes 社区资深成员与项目维护者

57讲 | 116763 人已学习

¥68¥199