Pandas 入门三：数据清洗必学！缺失值/重复值处理，一步到位不踩坑

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

Pandas 入门三：数据清洗必学！缺失值/重复值处理，一步到位不踩坑

热心网友时间：2026-04-14

转载

今天我们将会学习 Pandas 数据清洗的核心：缺失值“先检测后处理（删除/填充）”，重复值“一键去重”，新手跟着代码跑一遍就能掌握！

大家好，Pandas系列教程继续推进。前两期我们搭建了基础环境，掌握了数据读取和DataFrame的核心操作。今天，我们要深入到数据处理中避不开的“关键一步”——数据清洗。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

（前文回顾：《Pandas 入门一：零基础也能懂!3步安装+10分钟玩转数据读取》《Pandas 入门二：DataFrame 核心操作，新手也能轻松筛选/修改数据》）

现实中的数据往往不会那么“规整”。你拿到的原始表格里，大概率会存在空白单元格（即缺失值）、或者完全相同的重复行。这些“脏数据”如果不去处理，会直接影响后续分析的准确性。别担心，今天我们就用Pandas，把这两个高频问题一次性梳理清楚，过程清晰，一步到位。

一、先准备：加载数据（新手直接复制运行）

第一步还是老样子，导入Pandas并准备数据。为了让大家能无障碍地跟着练习，这里直接创建一个包含典型“脏数据”的示例表格。复制下面的代码运行，就能生成我们的练习数据集。

import pandas as pd

# 创建带缺失值、重复值的示例数据（模拟真实场景）
data = {
    ‘姓名’: [‘张三’, ‘李四’, ‘王五’, ‘张三’, None, ‘赵六’],  # None表示缺失值
    ‘年龄’: [25, 30, None, 25, 35, 35],  # 空白单元格对应None
    ‘城市’: [‘北京’, ‘上海’, ‘广州’, ‘北京’, ‘深圳’, ‘深圳’],
    ‘工资’: [8000, 12000, 10000, 8000, None, 10000]
}

# 转为DataFrame（表格格式）
df = pd.DataFrame(data)
print(“原始带脏数据的表格：”)
print(df)

运行这段代码后，你会看到一个包含NaN和重复行的表格。请注意，在Pandas里，NaN就代表了缺失值，也就是我们看到的空白格。

原始带脏数据的表格：
      姓名    年龄  城市      工资
0    张三  25.0  北京   8000.0
1    李四  30.0  上海  12000.0
2    王五   NaN  广州  10000.0
3    张三  25.0  北京   8000.0  # 这行是重复值
4   None  35.0  深圳      NaN
5    赵六  35.0  深圳  10000.0

二、缺失值处理：先检测，再处理

所谓缺失值，就是表格里那些空着没填的单元格（在Pandas里显示为NaN或None）。处理它们有一个标准流程：先定位，再解决。定位就是检测出哪里有缺失，解决则是选择删除这些不完整的记录，或者用合理的值把它们填上。

1. 三种快速检测缺失值的方法

# 方法1：查看每列缺失值的数量（最常用）
print(“=“*30)
print(“每列缺失值数量：”)
print(df.isnull().sum())  # isnull()判断是否为缺失值，sum()统计个数

# 方法2：查看缺失值占比（更直观）
print(“=“*30)
print(“每列缺失值占比：”)
print((df.isnull().sum() / len(df)).round(2))  # 除以总行数，保留2位小数

# 方法3：快速查看数据整体情况（包含缺失值）
print(“=“*30)
print(“数据整体信息：”)
df.info()  # 会显示每列非空值数量、数据类型

运行这几个指令，情况就一目了然了：“姓名”、“年龄”、“工资”三列各缺失了一个值。数据哪里“缺了”，缺了多少，新手也能秒懂。

2. 种核心缺失值处理方法（新手优先掌握）

(1) 方法1：直接删除（适合缺失值少的情况）

如果缺失的记录只是零星几个，占总体比例很低，那么最直接的办法就是删掉这些不完整的行。这是通过dropna()函数实现的。

# 删除包含缺失值的行（默认axis=0，删行；axis=1删列，不常用）
df_drop = df.dropna()
print(“=“*30)
print(“删除缺失值后的表格：”)
print(df_drop)

运行之后你会发现，所有包含NaN的行都消失了，剩下的数据都是“完整无缺”的。

(2) 方法2：填充缺失值（适合缺失值多的情况）

如果缺失的比例较高，直接删除会损失大量数据样本，这时候就该考虑填充了。核心思想是：用一个合理的估计值来代替缺失的空位。使用fillna()函数。

# 复制原始数据，避免修改原数据（新手好习惯）
df_fill = df.copy()

# 1. 数值型列（年龄、工资）：用均值/中位数填充（更合理）
df_fill[‘年龄’] = df_fill[‘年龄’].fillna(df_fill[‘年龄’].mean())  # 均值填充
df_fill[‘工资’] = df_fill[‘工资’].fillna(df_fill[‘工资’].median())  # 中位数填充

# 2. 文本型列（姓名）：用固定值填充（比如“未知”）
df_fill[‘姓名’] = df_fill[‘姓名’].fillna(‘未知’)

print(“=“*30)
print(“填充缺失值后的表格：”)
print(df_fill)

现在再看表格，所有的NaN都被替换了：年龄列用平均值填上，工资列采用了更稳健的中位数，姓名列则统一标记为“未知”。相比直接删除，这个方法能最大限度地保留数据体量。

新手小贴士：

数值型数据（如年龄、工资、分数）：优先考虑用中位数填充，因为它对极端值不敏感。试想，如果数据里有个年薪百万的极值，用平均值去填充就会把整体水平拉高，造成偏差。
文本型数据（如姓名、城市）：直接用固定的占位符填充，比如“未知”、“待补充”等。
当某一列的缺失值占比超过50%时，其实它已经失去大部分信息价值了。这时候，要么采用复杂的填充策略，要么就该考虑舍弃这一整列。

三、重复值处理：一键去重超简单

重复值就是那些在所有列上内容完全一致的行（比如我们示例数据里的两个“张三”）。它们会让后续的统计计数翻倍，必须清理。处理流程同样清晰：先侦测，后清除。

1. 检测重复值

print(“=“*30)
print(“是否有重复行（True=重复）：”)
print(df.duplicated())  # 每行判断是否为重复行（第一次出现的行算不重复）

# 统计重复行数量
print(“=“*30)
print(“重复行数量：”)
print(df.duplicated().sum())

运行代码后，系统会明确标出第3行（索引为3）是重复行，并且告诉你总的重复数量是1。

2. 删除重复值

使用drop_duplicates()可以一键清除所有重复项。注意，新手可以加上inplace=True参数直接在原数据上修改，或者将结果赋值给一个新变量，这是两种常见的做法。

# 复制填充后的表格（继续处理重复值）
df_clean = df_fill.copy()

# 删除重复行（默认保留第一次出现的行）
df_clean.drop_duplicates(inplace=True)

print(“=“*30)
print(“去重后的最终干净表格：”)
print(df_clean)

好了，现在再看最终结果。多余的“张三”行已经被移除，我们得到了一份既没有缺失值也没有重复值的、干净清爽的数据表格。