极客时间-轻松学习，高效学习-极客邦

唔多志

2019-08-22

所以老师能在稍微解释一下“自适应 Hash 索引”吗？自己查了一些资料，不是很懂。

作者回复: 我们先回顾下B+树索引和Hash索引：
B+树索引是MySQL的默认索引机制，也是大部分
因为可以使用范围搜索，可以很容易对数据进行排序操作，在联合索引中也可以利用部分索引建进行查询。这些情况下，我们都没法使用Hash索引，是因为Hash索引仅能满足=, <>, IN查询，不能使用范围查询，同时因为数据的存储是没有顺序的，所以在ORDER BY的情况下，还需要对数据重新进行排序。而对于联合索引的情况，Hash值是针对联合索引建合并后一起来计算Hash值，因此无法对单独的一个键或者几个索引键进行查询。

好了，默认使用B+树作为索引是因为B+树存在着以上的优点，那为什么还需要自适当Hash索引呢？这里，需要了解Hash索引的特点，因为Hash索引结构的特点，导致它的检索数据效率非常高，通常只需要O(1)的复杂度，也就是一次就可以完成数据的检索。虽然Hash索引的使用场景有很多限制，但是优点也很明显，所以MySQL提供了一个自适当Hash索引的功能（Adaptive Hash index）。注意，这里的自适应指的是不需要人工来制定，而是系统根据情况来自动完成的。
那什么情况下才会使用自适应Hash索引呢？如果某个数据经常会访问到，当满足一定条件的时候，就会将这个数据页的地址存放到Hash表中。这样下次查询的时候，就可以直接找到这个页面的所在位置。需要说明的是：
1）自适应哈希索引只保存热数据（经常被使用到的数据），并非全表数据。因此数据量并不会很大，可以让自适应Hash放到缓冲池中，也就是InnoDB buffer pool，进一步提升查找效率。

2）InnoDB中的自适应Hash相当于是“索引的索引”，采用Hash索引存储的是B+树索引中的页面的地址。这也就是为什么可以称自适应Hash为索引的索引。
采用自适应Hash索引目的是可以根据SQL的查询条件加速定位到叶子节点，特别是当B+树比较深的时候，通过自适应Hash索引可以提高数据的检索效率。

3）自适应Hash采用Hash函数映射到一个哈希表中，所以对于字典类型的数据查找非常方便
哈希表是数组+链表的形式。通过Hash函数可以计算索引键值所对应的bucket（桶）的位置，如果产生Hash冲突，如果产生哈希冲突，就需要遍历链表来解决。

4）是否开启了自适应Hash，可以通过innodb_adaptive_hash_index变量来查看，比如：mysql> show variables like '%adaptive_hash_index';

所以，总结下InnoDB本身不支持Hash，但是提供自适应Hash索引，不需要用户来操作，而是存储引擎自动完成的。自适应Hash也是InnoDB三大关键特性之一，另外两个分别是插入缓冲（Insert Buffer）和二次写(Double Write)。

 1

 29
用0和1改变自己

2019-08-08

1，Hash索引有很大的限制，如联合索引、模糊查询、范围查询，以及列里有重复值多。
2，需要遍历链表中所有行指针，逐一进行比较，直到找到所有符合条件的

作者回复: 对的



 7
Destroy、

2019-08-07

有个疑问，在数组中，针对下标的检索，时间复杂度是O(1)。老师的代码中用的是result.index(i)，这个函数用的应该不是下标检索。因为当我把代码改成result[i]，检索时间 0.0009975433349609375

作者回复: 因为我们要找的是某个元素的值，比如我添加的元素是1，3,5,7...99 一共50个元素，如果我想要找7这个元素，你会用7作为下标进行检索，还是将7作为元素值进行查找呢？
这里就需要检索具体的数值，对于数组来说下标是自动分配的，所以我们需要遍历数组来找到某个数值。
而对于字典来说，我们就可以创建索引了



 7
我行我素

2019-08-07

回复下蒙开强，如果是使用navicat创建索引的时候在后面是可以直接选择索引类型的，如果使用sql创建索引就是在穿件的使用using指定，一般默认是B+

作者回复: 多谢分享我行我素同学



 6
蒙开强

2019-08-07

老师，你好，hash索引与B+树索引是在建索引的时候手动指定么

作者回复: 在MySQL的InnoDB和如果使用的是MySQL的话，我们需要了解下MySQL的存储引擎都支持哪些索引结构，可以参考https://dev.mysql.com/doc/refman/8.0/en/create-index.html）

针对MySQL 默认的存储引擎InnoDB，或者使用MyISAM存储引擎都会默认使用的是B+树来进行存储，无法使用Hash索引。InnoDB提供的自适应Hash是不需要手动指定的。如果是Memory/Heap，或者是NDB存储引擎，是可以进行选择的（Hash还是B+树）。



 4
wusiration

2019-08-08

mysql查询中存在着很多范围查询、order by的场景，在这些场景下，B+树的性能好于Hash索引；关键字出现相同Hash码时，会出现hash冲突。

作者回复: 对的所以对于一般需求来说，B+树在数据库应用的场景更多，Hash适用一些特殊的需求，比如文件校验，密码学等



 3
渴望飞的哺乳类

2019-08-11

老师，B+ 树使用 LIKE 进行模糊查询的时候，like ‘xx%’ 才会使用到索引吧

作者回复: 对的，like 后面需要有内容（不能直接是通配符），比如 'xx%' 是OK的

 1

 2
Hash

2019-12-22

1、第一个问题
因为我们在实际的应用中遇到的情况是多种多样，等值查询只是一种而已，而hash索引存在hash冲突，并且有很多的限制，所以需要B+树，在不同的情况下适合的来选择使用！

2、第二个问题
发生hash冲突，然后遍历桶中的行指针来比较，这是非常耗时的一个操作，数据量很小还看不出来，数据量一大，几百万几千万，那这个效率可不是一般的差！

不存在没有hash冲突的hash函数，所以在使用hash索引的时候一定要分析清楚！

展开



 1
爱思考的仙人球

2019-10-20

hash函数里的桶（bucket）和hive里的桶（bucket）原理是一样的吗？

作者回复: 采用bucket分桶的概念都是一样的



 1
许童童

2019-08-07

查找某个固定值时 Hash 索引比 B+ 树更快，为什么 MySQL 还要采用 B+ 树的存储索引呢？另外，当两个关键字的 Hash 值相同时会发生什么？
因为B+ 树的一些特性像范围查询，联合索引的最左侧原则，支持 ORDER BY 排序等Hash索引没有。
会发生Hash冲突，然后去按key顺序在桶中等值查找。

作者回复: 对的



 1
稻草人

2020-01-11

老师可以再解释下输入空间大于桶空间时会hash冲突吗？从图中没看出来是怎么产生冲突的

 1


旅途

2019-12-24

老师问一下 hash 联合索引的计算是多个 hash键合并后进行计算hash值能起到避免重复的效果吗例如布隆过滤器一个输入使用多个算法来避免hash值的重复




ning先森

2019-11-21

1. [Hash 索引不支持 ORDER BY 排序，因为 Hash 索引指向的数据是无序的，因此无法起到排序优化的作用，而 B+ 树索引数据是有序的，可以起到对该字段 ORDER BY 排序优化的作用。同理，我们也无法用 Hash 索引进行模糊查询，而 B+ 树使用 LIKE 进行模糊查询的时候，LIKE 后面前模糊查询（比如 % 开头）的话就可以起到优化作用。] 没想明白 ?

2.[hash索引的流程: 键值=>桶=>数据行] 没理解?

3.[自适应Hash采用Hash函数映射到一个哈希表中，所以对于字典类型的数据查找非常方便
哈希表是数组+链表的形式。通过Hash函数可以计算索引键值所对应的bucket（桶）的位置，如果产生Hash冲突，如果产生哈希冲突，就需要遍历链表来解决。]

老师能不能结合图之类的解释下 ? 谢谢.

展开




Berry Wang

2019-11-12

老师，b+树为什么可以使用最左前缀匹配原则可以解释一下吗？




峻铭

2019-09-12

用java代码测试下数组和map的效率呢，将元素增加到1000000，会有惊喜！！！




Geek_1c165d

2019-08-14

老师有两个问题：
1、是不是创建的索引，不管是Hash索引还是B树索引都会存储在硬盘上的么？
2、B树索引的内容以B树的数据结构进行存储，那Hash索引是以什么数据结构进行存储的？

 1


马哲富

2019-08-12

老师您好，是不同的索引结构对应不同类型的索引（比如聚集索引、非聚集索引等）吗？另外知道这些底层的索引结构对于一个普通的开发人员的价值点（或者说判断依据）在哪儿呢？




ABC

2019-08-08

感觉Hash索引和Java的HashMap的Hash实现有点像，不过Java用链地址法解决了Hash冲突的问题。

作者回复: 对原理上是一样的




Ashlar

2019-08-08

能不能请老师分别推荐一下学习MySQL，Oracle，sql Server的一些书籍或者资料呢？

作者回复: 可以看下关于MySQL高性能优化的书籍，如果是数据库初学者也可以先从SQL Server开始，毕竟微软的产品在操作界面上上手简单。书籍有《21天学通SQL Server》《SQL优化最佳实践》《MySQL技术内容：SQL编程》《Oracle从入门到精通》




一语中的

2019-08-08

来自信息安全专业，看到这一节hash索引原理中提到hash算法，hash是不可逆的，有种异常熟悉的感觉，嗯，那些年学的安全算法们AES,DES,IDEA,Hash,HMAC...

作者回复: 感谢分享



