39 | 自增主键为什么不是连续的?

2019-02-11 林晓斌
《MySQL 实战 45 讲》
课程介绍


讲述:林晓斌

时长:大小16.05M


在第 4 篇文章中,我们提到过自增主键,由于自增主键可以让主键索引尽量地保持递增顺序插入,避免了页分裂,因此索引更紧凑。
之前我见过有的业务设计依赖于自增主键的连续性,也就是说,这个设计假设自增主键是连续的。但实际上,这样的假设是错的,因为自增主键不能保证连续递增。
今天这篇文章,我们就来说说这个问题,看看什么情况下自增主键会出现 “空洞”?
为了便于说明,我们创建一个表 t,其中 id 是自增主键字段、c 是唯一索引。
CREATE TABLE `t` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`c` int(11) DEFAULT NULL,
`d` int(11) DEFAULT NULL,
PRIMARY KEY (`id`),
UNIQUE KEY `c` (`c`)
) ENGINE=InnoDB;

自增...


展开全文
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。

精选留言

  • 长杰
    2019-02-11
    在最后一个例子中,执行 insert into t2(c,d) select c,d from t; 这个语句的时候,如果隔离级别是可重复读(repeatable read),binlog_format=statement。这个语句会对表 t 的所有记录和间隙加锁。
    你觉得为什么需要这么做呢?
    假如原库不对t表所有记录和间隙加锁,如果有其他事物新增数据并先与这个批量操作提交,由于事物的隔离级别是可重复读,t2是看不到新增的数据的。但是记录的binlog是statement格式,备库或基于binlog恢复的临时库,t2会看到新增的数据,出现数据不一致的情况。

    作者回复: 👍 这是一个典型的场景

    共 3 条评论
    83
  • 钱
    2019-08-07
    最喜欢这样的文章,以为比较简单和熟悉,也能打开一扇窗,让人看到一个不同的世界,并且无比丰富多彩。
    在什么场景下自增主键可能不连续?
    1:唯一键冲突
    2:事务回滚
    3:自增主键的批量申请
    深层次原因是,不判断自增主键是否已存在和减少加锁的时间范围和粒度->为了更高的性能->自增主键不能回退->自增主键不连续
    自增主键是怎么做的唯一性的?
    自增值加1,自增锁控制并发
    自增主键的生成性能如何?
    这个需要测试一下,数据库的自增主键也用做生成唯一数字,作为其他单号,比如:并发量小的订单号,性能可能一般。
    自增主键有最大值嘛?如果有,到了咋弄?
    最大值应该有,因为数字总有个范围,到了当做字符串的一部分,然后再自增拼接上另一部分,貌似也可以。
    自增主键的作用?保存机制?修改机制?
    作用:让主键索引尽量地保持递增顺序插入,避免页分裂,使索引更紧凑。
    保存机制:不同的存储引擎不一样。
    MyISAM 引擎的自增值保存在数据文件中。
    InnoDB 引擎的自增值,先是保存在了内存里,到了 MySQL 8.0 版本后,才有了“自增值持久化”的能力,放在了redolog里。
    修改机制:
    在 MySQL 里面,如果字段 id 被定义为 AUTO_INCREMENT,在插入一行数据的时候,自增值的行为如下:
    1:如果插入数据时 id 字段指定为 0、null 或未指定值,那么就把这个表当前的 AUTO_INCREMENT 值填到自增字段;
    2:如果插入数据时 id 字段指定了具体的值,就直接使用语句里指定的值。

    根据要插入的值和当前自增值的大小关系,自增值的变更结果也会有所不同。假设,某次要插入的值是 X,当前的自增值是 Y。
    1:如果 X<Y,那么这个表的自增值不变;
    2:如果 X≥Y,就需要把当前自增值修改为新的自增值。
    展开

    作者回复: 👍

    
    43
  • Nomius
    2019-06-05
    不知道老师还关不关注.
    (1)问一下为什么一张表上面只能有一个自增的字段? (这个大概能从文章中分析出来,因为autoincrement是定义在表结构中,如果有多个的话实现自增的时候逻辑太复杂了)
    (2)为什么自增的字段上面必须要有索引?

    作者回复: 1. 是的
    2. 我觉得最初的一个原因是,由于以前(8.0版本前)自增主键值是不持久化的,只放在内存里面。每次重启后,重新打开表时,需要计算“自增字段里面的最大值”,然后加1,作为当前的autoincrement的值。
    如果没有索引,算这个值就要做全表扫描,性能可能很差,影响访问表的速度。
    好问题。不过这个只是我个人猜测,也可能还有别的原因。😆

    共 2 条评论
    43
  • 帽子掉了
    2019-02-13
    老师您好,我有一个时序问题,想请教一下。
    从这篇文章的介绍来看,获取自增id和写binlog是有先后顺序的。
    那么在binlog为statement的情况下。
    语句A先获取id=1,然后B获取id=2,接着B提交,写binlog,再A写binlog。
    这个时候如果binlog重放,是不是会发生B的id为1,而A的id为2的不一致的情况?

    作者回复: 好问题,不会
    因为binlog在记录这种带自增值的语句之前,会在前面多一句,用于指定“接下来这个语句要需要的 自增ID值是多少”,而这个值,是在主库上这一行插入成功后对应的自增值,所以是一致的

    共 8 条评论
    29
  • aliang
    2019-02-12
    老师,我们这边有的开发不喜欢用mysql自带的主键自增功能,而是在程序中控制主键(时间+业务+机器+序列,bigint类型,实际长度有17位,其中序列保存在内存中,每次递增,主键值不连续)。理由是
    (1)通过这样的主键可以直接定位数据,减少索引(2)如果自增,必须先存数据得到主键才可继续下面的程序,如果自己计算主键,可以在入库前进行异步处理
    (3)a表要insert得到主键,然后处理b表,然后根据条件还要update a表。如果程序自己控制,就不用先insert a表,数据可以在内存中,直到最后一次提交。(对于a表,本来是insert+update,最后只是一条insert,少一次数据库操作)
    我想请问的是:
    (1)针对理由1,是否可以用组合索引替代?
    (2)针对理由2,是否mysql自身的主键自增分配逻辑就已经能实现了?
    (3)针对理由3,主键更长意味着更大的索引(主键索引和普通索引),你觉得怎样做会更好呢
    展开

    作者回复: “(时间+业务+机器+序列,bigint类型,实际长度有17位,其中序列保存在内存中,每次递增,主键值不连续)。” ----bigint就是8位,这个你需要确定一下。如果是8位的还好,如果是17位的字符串,就比较耗费空间;

    (1)如果“序列”是递增的,还是不能直接用来体现业务逻辑吧? 创建有业务意义的字段索引估计还是省不了的 ?
    (2)mysql确实做不到“插入之前就先算好接下来的id是多少”,一般都是insert执行完成后,再执行select last_insert_id
     (3) 先insert a再update b再update a,确实看上去比较奇怪,不过感觉这个逻辑应该是可以优化的,不应该作为“主键选择”的一个依据。你可否脱敏一下,把模拟的表结构和业务逻辑说下,看看是不是可以优化的。

    总之,按照你说的“时间+业务+机器+序列”这种模式,有点像用uuid,主要的问题还是,如果这个表的索引多,占用的空间比较大

    共 3 条评论
    16
  • Ryoma
    2019-02-14
    在8.0.3版本后,innodb_autoinc_lock_mode默认值已是2,在binlog_format默认值为row的前提下,想来也是为了增加并发。

    https://dev.mysql.com/doc/refman/8.0/en/innodb-parameters.html#sysvar_innodb_autoinc_lock_mode

    作者回复: 👍 大势所趋😆

    
    12
  • 进阶的码农
    2019-03-12
    课后题
    在最后一个例子中,执行 insert into t2(c,d) select c,d from t; 这个语句的时候,如果隔离级别是可重复读(repeatable read),binlog_format=statement会加记录锁和间隙锁。啥我的binlog_format=row也加锁了
    共 1 条评论
    5
  • Aaron_涛
    2019-04-21
    老师,能如果两个事务同时并发插入,主键没有指明的话,加锁的情况能说明下吗

    作者回复: 是说自增主键没指定?

    两个语句分别去申请自增主键,申请到的值是不一样的,所以并不冲突

    
    4
  • hetiu
    2019-03-05
    老师,请问下innodb_autoinc_lock_mode配置是库级别的还是实例级别的?

    作者回复: 全局的

    
    4
  • 宝仔
    2019-12-10
    老师这种情况
    insert into t (id,c,d) values (1,1,1),(2,2,2),(3,3,3),(null,4,4);
    或者
    insert into t (id,c,d) values (1,1,1),(null,2,2),(3,3,3),(null,4,4);
    能解释下吗?
    第一种情况自增id变成8了
    第二种情况自增id变成6了
    展开
    共 3 条评论
    3
  • mickey
    2020-03-16
    在讲 insert … select 要使用语句级的锁 的例子时,Session A和B 是不是讲反了??
    共 1 条评论
    2
  • yihang
    2020-02-09
    主键 id 出现自增 id 不连续的第三种原因 没有实验出来啊innodb_autoinc_lock_mode=0,1,2 都试了,mysql 版本是8.0, 最后自增列还是连续的
    
    2
  • 进阶的码农
    2019-03-12
    上期问题解答,有点疑问
    set sql_log_bin=off;
    alter table tbl_name engine=innodb;

    为什么备库需要执行set sql_log_bin=off这一句
    把表的引擎改成innodb不就能解决重启后内存表被删除的问题吗?
    展开
    
    2
  • 牛在天上飞
    2019-02-12
    老师,请问产生大量的event事件会对mysql服务器有什么影响?主要是哪几个方面的影响?

    作者回复: 也没啥,主要就是不好管理。。
    毕竟event是写在MySQL里的,写程序的同学不一定会记得。
    比较建议将这类逻辑写在应用程序里面

    
    2
  • 唐名之
    2019-02-25
    老师,如果我业务场景必须需要一个带有序自增值,设业务为表A,另外添加一张表记录自增为表B,表B包含3个字段(自增主键,表A唯一键,自增列);伪代码如下;这样能实现吗?或者有其他什么好的方案?
    begin;
    insert into A values(字段1, 唯一键);
    insert into B value (表A唯一键,自增列);
    commit;
    展开

    作者回复: 这样思路上是ok的,

    不过表b怎么有两个自增列?一个表只能有一个自增列。

    
    1
  • AstonPutting
    2019-02-21
    老师,innodb_autoinc_lock_mode = 2,binlog_format = statement 不也会出现数据不一致的问题吗?不是很理解 binlog_format = statement 的情况下,1 与 2 的区别。

    作者回复: innodb_autoinc_lock_mode = 2的时候就要binlog_format = row才好

    
    1
  • Goal
    2019-02-12
    赶上了进度,把春节期间的补回来了

    作者回复: 👍

    
    1
  • Frank
    2019-02-12
    insert into t values(null,1,1);
    begin;
    insert into t values(null,2,2);
    rolllack;
    insert into t values(null,2,2);
    // 插入的行是 (3,2,2)

    老师 里面是 rollback 吧
    展开

    作者回复: 是的,我手残了。。

    多谢指出,发起勘误了哈

    
    1
  • 先听
    2021-11-04
    5.7.29之前,在自增模式为1以上时,假如A进程使用insert..select..on duplicate update... 时,如果有另一个进程B也在处理同一个表,A可能会在晕乎乎地把人家B的数据给更新了。请问有没有在不打补丁情况下的解决建议呢?
    
    
  • 张诚
    2021-10-13
    有个疑问,当初不知道在哪里看到过,对于现在的系统单表行数一般到千万级就到极限了,再多了查询性能就可能成指数级下降,为什么主键类型不选择INT 而选择BIGINT呢?不是说尽量减少主键的数据类型大小吗?
    
    