数据结构与算法之美
王争
前Google工程师
立即订阅
71369 人已学习
课程目录
已完结 75 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 从今天起,跨过“数据结构与算法”这道坎
免费
入门篇 (4讲)
01 | 为什么要学习数据结构和算法?
02 | 如何抓住重点,系统高效地学习数据结构与算法?
03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?
04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度
基础篇 (38讲)
05 | 数组:为什么很多编程语言中数组都从0开始编号?
06 | 链表(上):如何实现LRU缓存淘汰算法?
07 | 链表(下):如何轻松写出正确的链表代码?
08 | 栈:如何实现浏览器的前进和后退功能?
09 | 队列:队列在线程池等有限资源池中的应用
10 | 递归:如何用三行代码找到“最终推荐人”?
11 | 排序(上):为什么插入排序比冒泡排序更受欢迎?
12 | 排序(下):如何用快排思想在O(n)内查找第K大元素?
13 | 线性排序:如何根据年龄给100万用户数据排序?
14 | 排序优化:如何实现一个通用的、高性能的排序函数?
15 | 二分查找(上):如何用最省内存的方式实现快速查找功能?
16 | 二分查找(下):如何快速定位IP对应的省份地址?
17 | 跳表:为什么Redis一定要用跳表来实现有序集合?
18 | 散列表(上):Word文档中的单词拼写检查功能是如何实现的?
19 | 散列表(中):如何打造一个工业级水平的散列表?
20 | 散列表(下):为什么散列表和链表经常会一起使用?
21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
22 | 哈希算法(下):哈希算法在分布式系统中有哪些应用?
23 | 二叉树基础(上):什么样的二叉树适合用数组来存储?
24 | 二叉树基础(下):有了如此高效的散列表,为什么还需要二叉树?
25 | 红黑树(上):为什么工程中都用红黑树这种二叉树?
26 | 红黑树(下):掌握这些技巧,你也可以实现一个红黑树
27 | 递归树:如何借助树来求解递归算法的时间复杂度?
28 | 堆和堆排序:为什么说堆排序没有快速排序快?
29 | 堆的应用:如何快速获取到Top 10最热门的搜索关键词?
30 | 图的表示:如何存储微博、微信等社交网络中的好友关系?
31 | 深度和广度优先搜索:如何找出社交网络中的三度好友关系?
32 | 字符串匹配基础(上):如何借助哈希算法实现高效字符串匹配?
33 | 字符串匹配基础(中):如何实现文本编辑器中的查找功能?
34 | 字符串匹配基础(下):如何借助BM算法轻松理解KMP算法?
35 | Trie树:如何实现搜索引擎的搜索关键词提示功能?
36 | AC自动机:如何用多模式串匹配实现敏感词过滤功能?
37 | 贪心算法:如何用贪心算法实现Huffman压缩编码?
38 | 分治算法:谈一谈大规模计算框架MapReduce中的分治思想
39 | 回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想
40 | 初识动态规划:如何巧妙解决“双十一”购物时的凑单问题?
41 | 动态规划理论:一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题
42 | 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
高级篇 (9讲)
43 | 拓扑排序:如何确定代码源文件的编译依赖关系?
44 | 最短路径:地图软件是如何计算出最优出行路径的?
45 | 位图:如何实现网页爬虫中的URL去重功能?
46 | 概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?
47 | 向量空间:如何实现一个简单的音乐推荐系统?
48 | B+树:MySQL数据库索引是如何实现的?
49 | 搜索:如何用A*搜索算法实现游戏中的寻路功能?
50 | 索引:如何在海量数据中快速查找某个数据?
51 | 并行算法:如何利用并行处理提高算法的执行效率?
实战篇 (5讲)
52 | 算法实战(一):剖析Redis常用数据类型对应的数据结构
53 | 算法实战(二):剖析搜索引擎背后的经典数据结构和算法
54 | 算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法
55 | 算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法
56 | 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
加餐:不定期福利 (6讲)
不定期福利第一期 | 数据结构与算法学习书单
不定期福利第二期 | 王争:羁绊前行的,不是肆虐的狂风,而是内心的迷茫
不定期福利第三期 | 测一测你的算法阶段学习成果
不定期福利第四期 | 刘超:我是怎么学习《数据结构与算法之美》的?
总结课 | 在实际开发中,如何权衡选择使用哪种数据结构和算法?
《数据结构与算法之美》学习指导手册
加餐:春节7天练 (7讲)
春节7天练 | Day 1:数组和链表
春节7天练 | Day 2:栈、队列和递归
春节7天练 | Day 3:排序和二分查找
春节7天练 | Day 4:散列表和字符串
春节7天练 | Day 5:二叉树和堆
春节7天练 | Day 6:图
春节7天练 | Day 7:贪心、分治、回溯和动态规划
加餐:用户学习故事 (2讲)
用户故事 | Jerry银银:这一年我的脑海里只有算法
用户故事 | zixuan:站在思维的高处,才有足够的视野和能力欣赏“美”
结束语 (3讲)
结束语 | 送君千里,终须一别
第2季回归 | 这一次,我们一起拿下设计模式!
打卡召集令 | 60 天攻克数据结构与算法
免费
数据结构与算法之美
登录|注册

50 | 索引:如何在海量数据中快速查找某个数据?

王争 2019-01-21
在第 48 节中,我们讲了 MySQL 数据库索引的实现原理。MySQL 底层依赖的是 B+ 树这种数据结构。留言里有同学问我,那类似 Redis 这样的 Key-Value 数据库中的索引,又是怎么实现的呢?底层依赖的又是什么数据结构呢?
今天,我就来讲一下索引这种常用的技术解决思路,底层往往会依赖哪些数据结构。同时,通过索引这个应用场景,我也带你回顾一下,之前我们学过的几种支持动态集合的数据结构。

为什么需要索引?

在实际的软件开发中,业务纷繁复杂,功能千变万化,但是,万变不离其宗。如果抛开这些业务和功能的外壳,其实它们的本质都可以抽象为“对数据的存储和计算”。对应到数据结构和算法中,那“存储”需要的就是数据结构,“计算”需要的就是算法。
对于存储的需求,功能上无外乎增删改查。这其实并不复杂。但是,一旦存储的数据很多,那性能就成了这些系统要关注的重点,特别是在一些跟存储相关的基础系统(比如 MySQL 数据库、分布式文件系统等)、中间件(比如消息中间件 RocketMQ 等)中。
“如何节省存储空间、如何提高数据增删改查的执行效率”,这样的问题就成了设计的重点。而这些系统的实现,都离不开一个东西,那就是索引。不夸张地说,索引设计得好坏,直接决定了这些系统是否优秀。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据结构与算法之美》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(21)

  • Jerry银银
    我对索引的理解
    ------------
    索引真是个好东西。索引的英文名字叫:index,记住这个英文单词,会让我们更容易记忆和联想它到底是什么。在实际的编程中,index这个单词,真是到处可见。例如:数组的下标就是index

    如果用一句话描述“索引”的作用,那会是什么?我想是这样:索引是用来辅助查找,用计算机专业术语叫:Addressing(寻址)

    现实世界中,我们的查找会存在两种场景:
    1. 从局部信息,查询与其相关的整体信息
    2. 从整体信息中查询局部信息
    怎么理解呢?
    搜索引擎需要查询一个网页中是否存在某个关键词以及通过某个关键词查询包含它的所有网页。

    索引的应用
    --------
    正是因为计算机大部分工作都是在Addressing,所以,在计算机中,索引到处存在。小到操作系统虚拟内存到真实内存的映射,就是索引嘛,大到分布式系统、网络,都是这个原理。

    以上,我对索引的理解有点“广义”。我觉得数据结构和算法如此重要,它体现计算机精髓的地方便在于此。




    2019-01-21
    43
  • freeland
    es中的单排索引其实用了trie树,对每个需要索引的key维护了一个trie树,用于定位到这个key在文件中的位置, 然后直接用有序列表直接去访问对应的documents ,区块链拿以太坊来说吧,存储用的leveldb,数据存储用的数据结构是帕特利夏树,是一种高级的trie树,很好的做了数据的压缩, 消息中间件像kafka这种,会去做持久化,每个partition都会有很多数据,会有大量数据存储在磁盘中,所以每个partition也会有个索引,方便去做快速访问
    2019-01-21
    19
  • Jerry银银
    今天音频朗读帅哥把MySQL读成了 my s q l ,早上起来听音频,萌了\(//∇//)\

    编辑回复: 官方读法就是 S Q L 哈

    2019-01-21
    1
    7
  • 往事随风,顺其自然
    可以讲讲es 到排序索引结构原理和数据结构?
    2019-01-22
    5
  • one
    希望老师能讲讲二级索引(从V查K)这块,一直搞不清楚,没有自己写过。还有空间数据结构的range现在也很火,比如uber,滴滴常用的,面试常考。
    2019-01-21
    5
  • 三木子
    everything
    2019-01-21
    1
    3
  • 万里有云
    把数据的关键词(查询用的)抽取出来,组织成有序数组。如果关键词是整型,那索引就是整形数组,关键词是字符串,那索引就是字符串指针数组吗?

    作者回复: 是的

    2019-04-12
    2
  • 在路边鼓掌的人
    昨天刚学了操作系统的多级页表,应该是比较经典的索引了😂
    2019-01-22
    2
  • static
    课后思考:Kafka的日志偏移量索引文件,时间戳索引文件,用于根据消息的偏移量、时间戳快速找到消息在磁盘中的位置。
    2019-09-16
    1
  • 纯洁的憎恶
    理论联系实际,融会贯通。
    2019-01-21
    1
  • 传说中的成大大
    这一节就高深了....
    2019-01-21
    1
  • 海贼王
    从评论可以看出能坚持到这里的人不多,不过也不绝对,因为有些坚持到这里的人可能因为某些原因没有发表评论。不过还是很感谢老师的,从这个课程中,我体会到了数据结构的用处。之前有人说数据结构在平常的开发中没有用,当时我表示认同。现在看来,这句话也不完全正确。不同层次的人看问题的思路不同,结果也南辕北辙。
    2019-11-29
  • AF
    HBase在读写过程中用到了跳表、LSM树和布隆过滤器。
    2019-11-02
  • 李冲
    想起一句不知道谁说的话,有点莫名其妙的感触。

    “计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决”

    是不是基础体系中的线性编址和寻址已经把模型给固定死了呢?举例来说位图以少代多,散列优化编排,树(跳表)二者兼有,都在一维与线性下转悠。
    2019-09-18
  • 胡小禾
    我以前只是人云亦云地认同“数据结构和算法”十分重要。看完本节,豁然开朗。似乎庞大的计算机体系,将其本质,半隐半现地展示在我面前
    2019-08-02
  • 无形
    最近在用的是倒排索引和roaring bitmap,用在广告检索中简直无敌搬的存在
    2019-07-05
  • xuery
    索引的底层数据结构实现很多,有些时候可以结合使用,比如王争老师说的,查询某个数据是否存在,可以先通过布隆过滤器的不存在的一定不存在判断,在这一层可以拦截掉不存在的数据
    2019-04-09
  • xiao皮孩。。
    理论 结合 应用场景,very good!
    2019-03-11
  • QQ怪
    想听es的倒排索引
    2019-03-07
  • 天王
    索引,软件的本质是对数据的存储和计算,数据结构是存储,算法是计算。节省存储的空间和提高增删改查的执行效率效率,索引是最重要的一环。1为什么需要索引2 索引的功能性需求和非功能性需求3底层用到的数据结构
    2019-03-05
收起评论
21
返回
顶部