25丨Hash索引的底层原理是什么？

陈旸



该思维导图由 AI 生成，仅供参考

我们上节课讲解了 B+ 树的原理，今天我们来学习下 Hash 的原理和使用。Hash 本身是一个函数，又被称为散列函数，它可以帮助我们大幅提升检索数据的效率。打个比方，Hash 就好像一个智能前台，你只要告诉它想要查找的人的姓名，它就会告诉你那个人坐在哪个位置，只需要一次交互就可以完成查找，效率非常高。大名鼎鼎的 MD5 就是 Hash 函数的一种。
Hash 算法是通过某种确定性的算法（比如 MD5、SHA1、SHA2、SHA3）将输入转变为输出。相同的输入永远可以得到相同的输出，假设输入内容有微小偏差，在输出中通常会有不同的结果。如果你想要验证两个文件是否相同，那么你不需要把两份文件直接拿来比对，只需要让对方把 Hash 函数计算得到的结果告诉你即可，然后在本地同样对文件进行 Hash 函数的运算，最后通过比较这两个 Hash 函数的结果是否相同，就可以知道这两个文件是否相同。
Hash 可以高效地帮我们完成验证的工作，它在数据库中有广泛的应用。今天的课程主要包括下面几个部分：
动手写程序统计一下 Hash 检索的效率。
了解 MySQL 中的 Hash 索引，理解使用它的优点和不足。
Hash 索引和 B+ 树索引的区别以及使用场景。
动手统计 Hash 检索效率

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Hash索引是数据库中一种高效的检索方式，通过Hash函数将输入转变为输出，可以大幅提升数据检索效率。相比B+树索引，Hash索引在等值查询时效率更高，但不支持范围查询、ORDER BY排序和模糊查询。文章通过实验比较了数组和Hash表检索数据的效率，展示了Hash检索的高效性。此外，文章还介绍了MySQL中的Hash索引和B+树索引的区别，以及Hash索引在特定场景下的应用。总的来说，Hash索引在数据库中有其独特的优势和限制，读者可以通过本文了解到Hash索引的底层原理和使用场景，以及与B+树索引的对比，从而更好地选择适合自己需求的索引方式。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《SQL 必知必会》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(31)

最新
精选

吴小智
所以老师能在稍微解释一下“自适应 Hash 索引”吗？自己查了一些资料，不是很懂。
作者回复: 我们先回顾下B+树索引和Hash索引： B+树索引是MySQL的默认索引机制，也是大部分因为可以使用范围搜索，可以很容易对数据进行排序操作，在联合索引中也可以利用部分索引建进行查询。这些情况下，我们都没法使用Hash索引，是因为Hash索引仅能满足=, <>, IN查询，不能使用范围查询，同时因为数据的存储是没有顺序的，所以在ORDER BY的情况下，还需要对数据重新进行排序。而对于联合索引的情况，Hash值是针对联合索引建合并后一起来计算Hash值，因此无法对单独的一个键或者几个索引键进行查询。好了，默认使用B+树作为索引是因为B+树存在着以上的优点，那为什么还需要自适当Hash索引呢？这里，需要了解Hash索引的特点，因为Hash索引结构的特点，导致它的检索数据效率非常高，通常只需要O(1)的复杂度，也就是一次就可以完成数据的检索。虽然Hash索引的使用场景有很多限制，但是优点也很明显，所以MySQL提供了一个自适当Hash索引的功能（Adaptive Hash index）。注意，这里的自适应指的是不需要人工来制定，而是系统根据情况来自动完成的。那什么情况下才会使用自适应Hash索引呢？如果某个数据经常会访问到，当满足一定条件的时候，就会将这个数据页的地址存放到Hash表中。这样下次查询的时候，就可以直接找到这个页面的所在位置。需要说明的是： 1）自适应哈希索引只保存热数据（经常被使用到的数据），并非全表数据。因此数据量并不会很大，可以让自适应Hash放到缓冲池中，也就是InnoDB buffer pool，进一步提升查找效率。 2）InnoDB中的自适应Hash相当于是“索引的索引”，采用Hash索引存储的是B+树索引中的页面的地址。这也就是为什么可以称自适应Hash为索引的索引。采用自适应Hash索引目的是可以根据SQL的查询条件加速定位到叶子节点，特别是当B+树比较深的时候，通过自适应Hash索引可以提高数据的检索效率。 3）自适应Hash采用Hash函数映射到一个哈希表中，所以对于字典类型的数据查找非常方便哈希表是数组+链表的形式。通过Hash函数可以计算索引键值所对应的bucket（桶）的位置，如果产生Hash冲突，如果产生哈希冲突，就需要遍历链表来解决。 4）是否开启了自适应Hash，可以通过innodb_adaptive_hash_index变量来查看，比如：mysql> show variables like '%adaptive_hash_index'; 所以，总结下InnoDB本身不支持Hash，但是提供自适应Hash索引，不需要用户来操作，而是存储引擎自动完成的。自适应Hash也是InnoDB三大关键特性之一，另外两个分别是插入缓冲（Insert Buffer）和二次写(Double Write)。
2019-08-22
4
78
用0和1改变自己
1，Hash索引有很大的限制，如联合索引、模糊查询、范围查询，以及列里有重复值多。 2，需要遍历链表中所有行指针，逐一进行比较，直到找到所有符合条件的
作者回复: 对的
2019-08-08

16
TKbook
有个疑问，在数组中，针对下标的检索，时间复杂度是O(1)。老师的代码中用的是result.index(i)，这个函数用的应该不是下标检索。因为当我把代码改成result[i]，检索时间 0.0009975433349609375
作者回复: 因为我们要找的是某个元素的值，比如我添加的元素是1，3,5,7...99 一共50个元素，如果我想要找7这个元素，你会用7作为下标进行检索，还是将7作为元素值进行查找呢？这里就需要检索具体的数值，对于数组来说下标是自动分配的，所以我们需要遍历数组来找到某个数值。而对于字典来说，我们就可以创建索引了
2019-08-07
4
14
我行我素
回复下蒙开强，如果是使用navicat创建索引的时候在后面是可以直接选择索引类型的，如果使用sql创建索引就是在穿件的使用using指定，一般默认是B+
作者回复: 多谢分享我行我素同学
2019-08-07

10
蒙开强
老师，你好，hash索引与B+树索引是在建索引的时候手动指定么
作者回复: 在MySQL的InnoDB和如果使用的是MySQL的话，我们需要了解下MySQL的存储引擎都支持哪些索引结构，可以参考https://dev.mysql.com/doc/refman/8.0/en/create-index.html）针对MySQL 默认的存储引擎InnoDB，或者使用MyISAM存储引擎都会默认使用的是B+树来进行存储，无法使用Hash索引。InnoDB提供的自适应Hash是不需要手动指定的。如果是Memory/Heap，或者是NDB存储引擎，是可以进行选择的（Hash还是B+树）。
2019-08-07
2
10
渴望飞的哺乳类
老师，B+ 树使用 LIKE 进行模糊查询的时候，like ‘xx%’ 才会使用到索引吧
作者回复: 对的，like 后面需要有内容（不能直接是通配符），比如 'xx%' 是OK的
2019-08-11
2
9
wusiration
mysql查询中存在着很多范围查询、order by的场景，在这些场景下，B+树的性能好于Hash索引；关键字出现相同Hash码时，会出现hash冲突。
作者回复: 对的所以对于一般需求来说，B+树在数据库应用的场景更多，Hash适用一些特殊的需求，比如文件校验，密码学等
2019-08-08

6
许童童
老师你好，数组检索数据的算法复杂度为 O(n)。不应该也是O(1)吗？
作者回复: 感谢提问，一个数组如果有n个元素，需要遍历完所有的元素才能找到某个元素，所以是O(n)，如果是O(1)就是不需要遍历，直接找到那个元素
2019-08-07
7
6
许童童
查找某个固定值时 Hash 索引比 B+ 树更快，为什么 MySQL 还要采用 B+ 树的存储索引呢？另外，当两个关键字的 Hash 值相同时会发生什么？因为B+ 树的一些特性像范围查询，联合索引的最左侧原则，支持 ORDER BY 排序等Hash索引没有。会发生Hash冲突，然后去按key顺序在桶中等值查找。
作者回复: 对的
2019-08-07

4
爱思考的仙人球
hash函数里的桶（bucket）和hive里的桶（bucket）原理是一样的吗？
作者回复: 采用bucket分桶的概念都是一样的
2019-10-20

3

收起评论