百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

MySQL踩坑笔记,加了唯一索引还会出现重复数据?

ztj100 2024-12-28 16:52 17 浏览 0 评论

还原问题

表结构如下:

-- 表格式
CREATE TABLE `student_course` (
  `id` bigint NOT NULL,
  `student_id` bigint NOT NULL,
  `course_id` bigint NOT NULL,
  `xxx_id` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

-- 为了保证数据的唯一性,建了唯一索引:
alter table student_course add unique index 
ux_student_conrse_xxx(student_id,course_id,xxx_id);

第二天查看数据,发现该表中竟然产生了重复的数据:

从上图中看出,mysql的唯一性约束生效了,重复数据被拦截了。

接下来,我们再插入两条xxx_id为null的数据,其中第三条数据跟第二条数据中student_idcourse_id和xxx_id字段值都一样.

从图中看出,竟然执行成功了。

换句话说,如果唯一索引的字段中,出现了null值,则唯一性约束不会生效。

最终插入的数据情况是这样的:

  1. 当xxx_id字段不为空时,不会产生重复的数据。
  2. 当xxx_id字段为空时,会生成重复的数据。

我们需要特别注意:创建唯一索引的字段,都不能允许为null,否则mysql的唯一性约束可能会失效。

逻辑删除表加唯一索引

我们都知道唯一索引非常简单好用,但有时候,在表中它并不好加。不信,我们一起往下看。通常情况下,要删除表的某条记录的话,如果用delete语句操作的话。例如:

delete from product where id=123;

这种delete操作是物理删除,即该记录被删除之后,后续通过sql语句基本查不出来。(不过通过其他技术手段可以找回,那是后话了)还有另外一种是逻辑删除,主要是通过update语句操作的。例如:

update product set delete_status=1,edit_time=now(3) where id=123;

逻辑删除需要在表中额外增加一个删除状态字段,用于记录数据是否被删除。在所有的业务查询的地方,都需要过滤掉已经删除的数据。通过这种方式删除数据之后,数据任然还在表中,只是从逻辑上过滤了删除状态的数据而已。


其实对于这种逻辑删除的表,是没法加唯一索引的。为什么呢?


假设之前给商品表中的name和model加了唯一索引,如果用户把某条记录删除了,delete_status设置成1了。后来,该用户发现不对,又重新添加了一模一样的商品。由于唯一索引的存在,该用户第二次添加商品会失败,即使该商品已经被删除了,也没法再添加了。这个问题显然有点严重。

有人可能会说:把name、model和delete_status三个字段同时做成唯一索引不就行了?


答:这样做确实可以解决用户逻辑删除了某个商品,后来又重新添加相同的商品时,添加不了的问题。但如果第二次添加的商品,又被删除了。该用户第三次添加相同的商品,不也出现问题了?由此可见,如果表中有逻辑删除功能,是不方便创建唯一索引的。
但如果真的想给包含逻辑删除的表,增加唯一索引,该怎么办呢?


删除状态+1

通过前面知道,如果表中有逻辑删除功能,是不方便创建唯一索引的。其根本原因是,记录被删除之后,delete_status会被设置成1,默认是0。相同的记录第二次删除的时候,delete_status被设置成1,但由于创建了唯一索引(把name、model和delete_status三个字段同时做成唯一索引),数据库中已存在delete_status为1的记录,所以这次会操作失败。


我们为啥不换一种思考:不要纠结于delete_status为1,表示删除,当delete_status为1、2、3等等,只要大于1都表示删除。这样的话,每次删除都获取那条相同记录的最大删除状态,然后加1。
这样数据操作过程变成:


添加记录a,delete_status=0。
删除记录a,delete_status=1。
添加记录a,delete_status=0。
删除记录a,delete_status=2。
添加记录a,delete_status=0。
删除记录a,delete_status=3。


由于记录a,每次删除时,delete_status都不一样,所以可以保证唯一性。该方案的优点是:不用调整字段,非常简单和直接。
缺点是:可能需要修改sql逻辑,特别是有些查询sql语句,有些使用delete_status=1判断删除状态的,需要改成delete_status>=1。

增加时间戳字段

导致逻辑删除表,不好加唯一索引最根本的地方在逻辑删除那里。我们为什么不加个字段,专门处理逻辑删除的功能呢?


答:可以增加时间戳字段。


把name、model、delete_status和timeStamp,四个字段同时做成唯一索引在添加数据时,timeStamp字段写入默认值1。


然后一旦有逻辑删除操作,则自动往该字段写入时间戳。这样即使是同一条记录,逻辑删除多次,每次生成的时间戳也不一样,也能保证数据的唯一性。


时间戳一般精确到秒。除非在那种极限并发的场景下,对同一条记录,两次不同的逻辑删除操作,产生了相同的时间戳。这时可以将时间戳精确到毫秒。


该方案的优点是:可以在不改变已有代码逻辑的基础上,通过增加新字段实现了数据的唯一性。缺点是:在极限的情况下,可能还是会产生重复数据。

增加id字段


其实,增加时间戳字段基本可以解决问题。但在在极限的情况下,可能还是会产生重复数据。有没有办法解决这个问题呢?

答:增加主键字段:delete_id。

该方案的思路跟增加时间戳字段一致,即在添加数据时给delete_id设置默认值1,然后在逻辑删除时,给delete_id赋值成当前记录的主键id。


把name、model、delete_status和delete_id,四个字段同时做成唯一索引。这可能是最优方案,无需修改已有删除逻辑,也能保证数据的唯一性。

重复历史数据如何加唯一索引?

前面聊过如果表中有逻辑删除功能,不太好加唯一索引,但通过文中介绍的三种方案,可以顺利的加上唯一索引。
但来自灵魂的一问:如果某张表中,已存在历史重复数据,该如何加索引呢?最简单的做法是,增加一张防重表,然后把数据初始化进去。


可以写一条类似这样的SQL:

insert into product_unqiue(id,name,category_id,unit_id,model)
select max(id), select name,category_id,unit_id,model from product
group by name,category_id,unit_id,model;


这样做可以是可以,但今天的主题是直接在原表中加唯一索引,不用防重表。那么,这个唯一索引该怎么加呢?其实可以借鉴上一节中,增加id字段的思路。增加一个delete_id字段。不过在给product表创建唯一索引之前,先要做数据处理。获取相同记录的最大id:


select max(id), select name,category_id,unit_id,model from product
group by name,category_id,unit_id,model;


然后将delete_id字段设置成1。然后将其他的相同记录的delete_id字段,设置成当前的主键。这样就能区分历史的重复数据了。当所有的delete_id字段都设置了值之后,就能给name、model、delete_status和delete_id,四个字段加唯一索引了。完美。

相关推荐

Whoosh,纯python编写轻量级搜索工具

引言在许多应用程序中,搜索功能是至关重要的。Whoosh是一个纯Python编写的轻量级搜索引擎库,可以帮助我们快速构建搜索功能。无论是在网站、博客还是本地应用程序中,Whoosh都能提供高效的全文搜...

如何用Python实现二分搜索算法(python二分法查找代码)

如何用Python实现二分搜索算法二分搜索(BinarySearch)是一种高效的查找算法,适用于在有序数组中快速定位目标值。其核心思想是通过不断缩小搜索范围,每次将问题规模减半,时间复杂度为(O...

路径扫描 -- dirsearch(路径查找器怎么使用)

外表干净是尊重别人,内心干净是尊重自己,干净,在今天这个时代,应该是一种极高的赞美和珍贵。。。----网易云热评一、软件介绍Dirsearch是一种命令行工具,可以强制获取web服务器中的目录和文件...

78行Python代码帮你复现微信撤回消息!

来源:悟空智能科技本文约700字,建议阅读5分钟。本文基于python的微信开源库itchat,教你如何收集私聊撤回的信息。...

从零开始学习 Python!2《进阶知识》 Python进阶之路

欢迎来到Python学习的进阶篇章!如果你说已经掌握了基础语法,那么这篇就是你开启高手之路的大门。我们将一起探讨面向对象编程...

白帽黑客如何通过dirsearch脚本工具扫描和收集网站敏感文件

一、背景介绍...

Python之txt数据预定替换word预定义定位标记生成word报告(四)

续接Python之txt数据预定替换word预定义定位标记生成word报告(一)https://mp.toutiao.com/profile_v4/graphic/preview?pgc_id=748...

假期苦短,我用Python!这有个自动回复拜年信息的小程序

...

Python——字符串和正则表达式中的反斜杠('\')问题详解

在本篇文章里小编给大家整理的是关于Python字符串和正则表达式中的反斜杠('\')问题以及相关知识点,有需要的朋友们可以学习下。在Python普通字符串中在Python中,我们用'\'来转义某些普通...

Python re模块:正则表达式综合指南

Python...

Python中re模块详解(rem python)

在《...

python之re模块(python re模块sub)

re模块一.re模块的介绍1.什么是正则表达式"定义:正则表达式是一种对字符和特殊字符操作的一种逻辑公式,从特定的字符中,用正则表达字符来过滤的逻辑。(也是一种文本模式;)2、正则表达式可以帮助我们...

MySQL、PostgreSQL、SQL Server 数据库导入导出实操全解

在数字化时代,数据是关键资产,数据库的导入导出操作则是连接数据与应用场景的桥梁。以下是常见数据库导入导出的实用方法及代码,包含更多细节和特殊情况处理,助你应对各种实际场景。一、MySQL数据库...

Zabbix监控系统系列之六:监控 mysql

zabbix监控mysql1、监控规划在创建监控项之前要尽量考虑清楚要监控什么,怎么监控,监控数据如何存储,监控数据如何展现,如何处理报警等。要进行监控的系统规划需要对Zabbix很了解,这里只是...

mysql系列之一文详解Navicat工具的使用(二)

本章内容是系列内容的第二部分,主要介绍Navicat工具的使用。若查看第一部分请见:...

取消回复欢迎 发表评论: