当前位置: 首页
数据库
怎样在SQL存储过程中删除重复数据_利用CTE与ROW_NUMBER函数实现

怎样在SQL存储过程中删除重复数据_利用CTE与ROW_NUMBER函数实现

热心网友 时间:2026-04-28
转载

用CTE+ROW_NUMBER()删除重复数据最稳妥,通过PARTITION BY定义重复组、ORDER BY指定保留行(如最小id),避免GROUP BY在DELETE中不支持及NULL分组等问题。

怎样在SQL存储过程中删除重复数据_利用CTE与ROW_NUMBER函数实现

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

说到在数据库里清理重复数据,CTE 配合 ROW_NUMBER() 这个组合,可以说是最稳妥、最精准的方案了。它能明确地告诉你每组数据里保留哪一条,而且完全不依赖表里有没有唯一键。

为什么不能直接 DELETE 加 GROUP BY?

很多朋友第一个念头可能是用 GROUP BY 分组后直接删,但这条路在 SQL Server 和大多数主流数据库里是走不通的。数据库引擎会直接报错:Incorrect syntax near the keyword 'GROUP'。原因很简单,DELETE 语句的设计就不支持直接使用 GROUP BY 或聚合函数。那怎么办呢?这时候 CTE(公用表表达式)就派上用场了。它相当于创建了一个临时的、可更新的逻辑视图,让我们能把 ROW_NUMBER() 计算出来的序号,直接用在 DELETE 操作上。

ROW_NUMBER() 必须配合 PARTITION BY 和 ORDER BY

光写一个 ROW_NUMBER() OVER () 是没意义的,它只会给全表所有行编个流水号(1, 2, 3...),根本区分不开哪些是重复组。真正的精髓在于后面两个子句:

  • PARTITION BY col1, col2:这个子句定义了“什么叫重复”。你把哪些列放进来,系统就按这些列的值是否完全相同来分组。
  • ORDER BY id ASC:这个子句决定了在每一组重复数据里,你打算留下哪一条。通常我们会按主键 id 升序排,保留最小的那条,或者按时间戳排序,保留最新或最旧的那条。

来看一个经典例子:删除 users 表中 email 地址重复的记录,只保留 id 最小的那一条。

WITH dup AS (
  SELECT id, email,
         ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn
  FROM users
)
DELETE FROM dup WHERE rn > 1;

执行前务必加事务和验证

上面这条语句是动真格的,执行了数据就没了。所以动手之前,有几个常见的坑必须绕开:

  • 排序方向搞反了:如果你本意是留旧删新,却写了 ORDER BY id DESC,那结果就是留新删旧,完全反了。
  • 忽略了 NULL 值:在 SQL 的世界里,NULL = NULL 的结果是未知(false)。这意味着,如果 PARTITION BY 的列里有多个 NULL,它们不会被归为同一组。如果你的业务认为 NULL 也应该被视为相同值,就需要先用 ISNULL(email, '') 之类的函数处理一下。
  • 忘了先预览:在执行 DELETE 前,务必把 DELETE FROM dup WHERE rn > 1 换成 SELECT * FROM dup WHERE rn > 1 跑一遍,看看即将被删除的到底是哪些数据。
  • 生产环境裸奔:在生产数据库操作,一定要套上事务:BEGIN TRAN; ... (你的DELETE语句) ...; ROLLBACK;。先回滚检查,确认无误后再 COMMIT

替代方案对比:临时表 or GROUP BY + 子查询?

当然,市面上也有其他方法。比如,有人会用临时表:先 SELECT MIN(id) INTO #keep FROM t GROUP BY cols 找出要保留的ID,再 DELETE WHERE id NOT IN (SELECT id FROM #keep)。但这个方法隐患不少:

  • 如果原表没有主键,或者 id 本身就不唯一,MIN(id) 选出来的可能并不是你想保留的那行。
  • 使用 NOT IN 时,如果子查询结果集里包含 NULL,那么整个条件会直接返回空,导致 DELETE 语句静默失效,一条都删不掉。
  • 相比之下,CTE 的方案逻辑更集中,原子性更强,执行计划也通常更清晰可控。

说到底,技术实现本身并不复杂。真正的难点往往在于前期的业务确认:到底“哪些列组合起来算重复”?以及“重复了以后,究竟按什么规则保留哪一条”?这两个问题,必须和产品或业务负责人掰扯清楚。代码,只是最终执行这些规则的工具罢了。

来源:https://www.php.cn/faq/2384337.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
SQL视图数据不一致如何排查_检查物理表锁与事务隔离

SQL视图数据不一致如何排查_检查物理表锁与事务隔离

视图数据与物理表不一致?先别慌,按这四步走 排查视图数据与物理表不一致的问题,核心在于理清四个常见原因:事务隔离级别的差异、视图中非确定性函数的影响、底层物理表的锁阻塞,以及表结构变更后视图元数据未刷新。系统性地检查隔离级别设置、视图定义、锁状态和对象依赖关系,是解决问题的关键。 视图查出来的数据和

时间:2026-04-28 22:31
如何利用SQL子查询实现列转行操作_嵌套CASE WHEN逻辑分析

如何利用SQL子查询实现列转行操作_嵌套CASE WHEN逻辑分析

如何利用SQL子查询实现列转行操作:嵌套CASE WHEN逻辑分析 子查询里不能直接用CASE WHEN做列转行?先搞清执行顺序 很多朋友一看到“列转行”,下意识就想用CASE WHEN去解决。但这里有个根本性的误区:CASE WHEN本身并不改变行数,它只是在每一行内部做条件判断和值映射。真正的“

时间:2026-04-28 22:31
SQL如何判断记录是否为重复项_使用ROW_NUMBER标记录状态

SQL如何判断记录是否为重复项_使用ROW_NUMBER标记录状态

SQL重复记录识别:ROW_NUMBER()的正确打开方式 先明确一个核心概念:ROW_NUMBER() 这个窗口函数,它本身并不具备“判断重复”的能力。它的本职工作,是按你设定的规则给每一行编个号。真正用来识别重复的,其实是“按特定字段分组后,组内编号大于1”这套组合逻辑。所以,问题的关键从来不是

时间:2026-04-28 22:31
SQL如何根据聚合结果反向筛选记录_利用存在性子查询

SQL如何根据聚合结果反向筛选记录_利用存在性子查询

EXISTS子查询:先分组聚合再筛选原始记录的最稳妥方式 用 EXISTS 做聚合后反向筛选,比 HA VING 更灵活 开门见山,先说一个核心结论:当你需要“先按某列分组、算出聚合值(比如平均值、最大值),然后再找出满足该聚合条件的原始记录”时,EXISTS 子查询往往是那个最稳妥、最不会出错的选

时间:2026-04-28 22:31
SQL怎么进行批量字符串的修整清洗_利用TRIM与REGEXP组合

SQL怎么进行批量字符串的修整清洗_利用TRIM与REGEXP组合

SQL字符串批量清洗:TRIM的局限与正则表达式的实战指南 TRIM 只能去首尾,别指望它删中间空格或特殊符号 一提到字符串清洗,很多人的第一反应就是TRIM()。但实际操作后往往会发现,事情没那么简单。比如,TRIM( hello world )确实能去掉首尾空格,得到 hello world

时间:2026-04-28 22:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程