SQL怎样统计非重复值的数量_使用COUNT DISTINCT处理

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

数据库

SQL怎样统计非重复值的数量_使用COUNT DISTINCT处理

热心网友时间：2026-04-29

转载

SQL怎样统计非重复值的数量：使用COUNT DISTINCT处理

SQL怎样统计非重复值的数量_使用COUNT DISTINCT处理

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

答案是肯定的。COUNT(DISTINCT column_name) 默认会跳过所有的 NULL 值，它们压根儿不参与去重计数。这意味着，如果你的字段里存在大量 NULL，而你却误以为它们被算进去了，最终的统计结果就会比预期偏低。

想验证这一点？方法其实很简单。你可以分别执行下面这两条查询：

SELECT COUNT(DISTINCT col) FROM t;
SELECT COUNT(DISTINCT col) + COUNT(*) FILTER (WHERE col IS NULL) FROM t;

后面这条语句的结果，才是“非重复值 + NULL 的个数”。不过得提醒一下，这里的 FILTER 是 PostgreSQL 的语法；在 MySQL 和 SQL Server 里并不支持，你得用 CASE WHEN 来模拟实现。

没错，这确实是个历史遗留的“坑”。在老版本的 MySQL（比如经典的 5.7）里，直接写 COUNT(DISTINCT a, b) 是会报语法错误的。那怎么办呢？通常得绕个弯子：

通常来说，并不会更快，有时甚至会更慢。原因在于，COUNT(DISTINCT x) 在数据库内部同样需要进行哈希或排序来实现去重，其底层开销和显式地写 SELECT COUNT(*) FROM (SELECT DISTINCT x FROM t) s 是接近的。

但两者的关键区别在于应用场景的灵活性：

COUNT(DISTINCT) 作为一个聚合函数，可以很方便地和其他聚合运算混合使用（比如，在同一查询里同时计算 A VG(price) 和去重的用户数）。
而使用 GROUP BY 的子查询，通常只能返回一个单一的计数结果。如果想再加入其他指标，就得借助 JOIN 或者公共表表达式（CTE）了。
如果只是统计单个字段的去重数量，两者的性能差异其实不大。不过，当字段中包含大量重复值时，GROUP BY 有时会略占优势，因为查询优化器有可能提前终止某些计算。

这时候你会遇到一个典型的错误：Operand data type text is invalid for distinct operator。问题根源在于，text、ntext、image 这些比较旧的数据类型，本身就不支持 DISTINCT 或 GROUP BY 操作。

解决办法是必须先进行类型转换：

使用 CAST(col AS VARCHAR(MAX)) 或 CONVERT(VARCHAR(MAX), col)。
需要警惕的是，如果文本内容超过 2GB，连 VARCHAR(MAX) 也装不下，这时就得考虑改用 XML 类型或者分块处理等策略了。
从长远来看，最好的实践是将表结构升级，使用 varchar(max) 或 nvarchar(max) 这些新的类型，它们对 DISTINCT 有着完整的支持。

实际的写法可以参考这个示例：SELECT COUNT(DISTINCT CAST(description AS VARCHAR(MAX))) FROM products

来源:https://www.php.cn/faq/2319617.html