当前位置: 首页
业界动态
Pandas 入门三:数据清洗必学!缺失值/重复值处理,一步到位不踩坑

Pandas 入门三:数据清洗必学!缺失值/重复值处理,一步到位不踩坑

热心网友 时间:2026-04-14
转载

今天我们将会学习 Pandas 数据清洗的核心:缺失值“先检测后处理(删除/填充)”,重复值“一键去重”,新手跟着代码跑一遍就能掌握!

大家好,Pandas系列教程继续推进。前两期我们搭建了基础环境,掌握了数据读取和DataFrame的核心操作。今天,我们要深入到数据处理中避不开的“关键一步”——数据清洗。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

(前文回顾:《Pandas 入门一:零基础也能懂!3步安装+10分钟玩转数据读取》《Pandas 入门二:DataFrame 核心操作,新手也能轻松筛选/修改数据》)

现实中的数据往往不会那么“规整”。你拿到的原始表格里,大概率会存在空白单元格(即缺失值)、或者完全相同的重复行。这些“脏数据”如果不去处理,会直接影响后续分析的准确性。别担心,今天我们就用Pandas,把这两个高频问题一次性梳理清楚,过程清晰,一步到位。

一、先准备:加载数据(新手直接复制运行)

第一步还是老样子,导入Pandas并准备数据。为了让大家能无障碍地跟着练习,这里直接创建一个包含典型“脏数据”的示例表格。复制下面的代码运行,就能生成我们的练习数据集。

import pandas as pd

# 创建带缺失值、重复值的示例数据(模拟真实场景)
data = {
    ‘姓名’: [‘张三’, ‘李四’, ‘王五’, ‘张三’, None, ‘赵六’],  # None表示缺失值
    ‘年龄’: [25, 30, None, 25, 35, 35],  # 空白单元格对应None
    ‘城市’: [‘北京’, ‘上海’, ‘广州’, ‘北京’, ‘深圳’, ‘深圳’],
    ‘工资’: [8000, 12000, 10000, 8000, None, 10000]
}

# 转为DataFrame(表格格式)
df = pd.DataFrame(data)
print(“原始带脏数据的表格:”)
print(df)

运行这段代码后,你会看到一个包含NaN和重复行的表格。请注意,在Pandas里,NaN就代表了缺失值,也就是我们看到的空白格。

原始带脏数据的表格:
      姓名    年龄  城市      工资
0    张三  25.0  北京   8000.0
1    李四  30.0  上海  12000.0
2    王五   NaN  广州  10000.0
3    张三  25.0  北京   8000.0  # 这行是重复值
4   None  35.0  深圳      NaN
5    赵六  35.0  深圳  10000.0

二、缺失值处理:先检测,再处理

所谓缺失值,就是表格里那些空着没填的单元格(在Pandas里显示为NaN或None)。处理它们有一个标准流程:先定位,再解决。定位就是检测出哪里有缺失,解决则是选择删除这些不完整的记录,或者用合理的值把它们填上。

1. 三种快速检测缺失值的方法

# 方法1:查看每列缺失值的数量(最常用)
print(“=“*30)
print(“每列缺失值数量:”)
print(df.isnull().sum())  # isnull()判断是否为缺失值,sum()统计个数

# 方法2:查看缺失值占比(更直观)
print(“=“*30)
print(“每列缺失值占比:”)
print((df.isnull().sum() / len(df)).round(2))  # 除以总行数,保留2位小数

# 方法3:快速查看数据整体情况(包含缺失值)
print(“=“*30)
print(“数据整体信息:”)
df.info()  # 会显示每列非空值数量、数据类型

运行这几个指令,情况就一目了然了:“姓名”、“年龄”、“工资”三列各缺失了一个值。数据哪里“缺了”,缺了多少,新手也能秒懂。

2. 种核心缺失值处理方法(新手优先掌握)

(1) 方法1:直接删除(适合缺失值少的情况)

如果缺失的记录只是零星几个,占总体比例很低,那么最直接的办法就是删掉这些不完整的行。这是通过dropna()函数实现的。

# 删除包含缺失值的行(默认axis=0,删行;axis=1删列,不常用)
df_drop = df.dropna()
print(“=“*30)
print(“删除缺失值后的表格:”)
print(df_drop)

运行之后你会发现,所有包含NaN的行都消失了,剩下的数据都是“完整无缺”的。

(2) 方法2:填充缺失值(适合缺失值多的情况)

如果缺失的比例较高,直接删除会损失大量数据样本,这时候就该考虑填充了。核心思想是:用一个合理的估计值来代替缺失的空位。使用fillna()函数。

# 复制原始数据,避免修改原数据(新手好习惯)
df_fill = df.copy()

# 1. 数值型列(年龄、工资):用均值/中位数填充(更合理)
df_fill[‘年龄’] = df_fill[‘年龄’].fillna(df_fill[‘年龄’].mean())  # 均值填充
df_fill[‘工资’] = df_fill[‘工资’].fillna(df_fill[‘工资’].median())  # 中位数填充

# 2. 文本型列(姓名):用固定值填充(比如“未知”)
df_fill[‘姓名’] = df_fill[‘姓名’].fillna(‘未知’)

print(“=“*30)
print(“填充缺失值后的表格:”)
print(df_fill)

现在再看表格,所有的NaN都被替换了:年龄列用平均值填上,工资列采用了更稳健的中位数,姓名列则统一标记为“未知”。相比直接删除,这个方法能最大限度地保留数据体量。

新手小贴士:

  • 数值型数据(如年龄、工资、分数):优先考虑用中位数填充,因为它对极端值不敏感。试想,如果数据里有个年薪百万的极值,用平均值去填充就会把整体水平拉高,造成偏差。
  • 文本型数据(如姓名、城市):直接用固定的占位符填充,比如“未知”、“待补充”等。
  • 当某一列的缺失值占比超过50%时,其实它已经失去大部分信息价值了。这时候,要么采用复杂的填充策略,要么就该考虑舍弃这一整列。

三、重复值处理:一键去重超简单

重复值就是那些在所有列上内容完全一致的行(比如我们示例数据里的两个“张三”)。它们会让后续的统计计数翻倍,必须清理。处理流程同样清晰:先侦测,后清除。

1. 检测重复值

print(“=“*30)
print(“是否有重复行(True=重复):”)
print(df.duplicated())  # 每行判断是否为重复行(第一次出现的行算不重复)

# 统计重复行数量
print(“=“*30)
print(“重复行数量:”)
print(df.duplicated().sum())

运行代码后,系统会明确标出第3行(索引为3)是重复行,并且告诉你总的重复数量是1。

2. 删除重复值

使用drop_duplicates()可以一键清除所有重复项。注意,新手可以加上inplace=True参数直接在原数据上修改,或者将结果赋值给一个新变量,这是两种常见的做法。

# 复制填充后的表格(继续处理重复值)
df_clean = df_fill.copy()

# 删除重复行(默认保留第一次出现的行)
df_clean.drop_duplicates(inplace=True)

print(“=“*30)
print(“去重后的最终干净表格:”)
print(df_clean)

好了,现在再看最终结果。多余的“张三”行已经被移除,我们得到了一份既没有缺失值也没有重复值的、干净清爽的数据表格。

四、新手必记:核心函数速查表

五、总结

今天,我们系统性地梳理了Pandas数据清洗的两个核心操作:对于缺失值,遵循“先检测、后处理(删除或填充)”的流程;对于重复值,则是“一键检测、一键删除”。跟着代码从头到尾跑一遍,这个流程就能牢牢掌握。

必须强调的是,干净的数据是所有深度分析的地基。缺失值和重复值处理,是实际工作中使用频率最高的操作之一。建议大家多动手复现几遍,形成肌肉记忆。下一篇,我们将进入Pandas的进阶世界,学习数据筛选、分组与聚合,你会发现,这些操作比在Excel里手动处理,要高效不止一个量级。

来源:https://www.51cto.com/article/834745.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI 获客攻略:2026 年 4 月 AI 获客服务商测评:5 家头部品牌实力解析 + 选型避坑指南 +FAQ

AI 获客攻略:2026 年 4 月 AI 获客服务商测评:5 家头部品牌实力解析 + 选型避坑指南 +FAQ

AI 获客公司概念解析 简而言之,AI获客公司是赋能企业实现“智能获客”的专业服务商。它们摒弃了传统人力广撒网的模式,深度融合生成式人工智能与大数据分析技术,构建起一套全自动化的智能获客系统。这套系统能够精准洞察潜在客户意图,自动化生成高吸引力营销内容,实现跨渠道的精准触达,并最终完成线索的智能化筛

时间:2026-04-16 16:28
欧盟初步认定 Meta 违反反垄断规则,要求恢复第三方 AI 助手访问 WhatsApp

欧盟初步认定 Meta 违反反垄断规则,要求恢复第三方 AI 助手访问 WhatsApp

欧盟初步认定 Meta 违反反垄断规则,要求恢复第三方 AI 助手访问 WhatsApp 欧盟与科技巨头之间的监管博弈,又添新章。4月15日,欧盟委员会发布的一份公报,将矛头再次对准了Meta。这份补充异议声明明确指出,即便Meta调整了政策,其限制第三方人工智能助手接入WhatsApp的做法,仍被

时间:2026-04-16 16:26
定好闹钟:五一火车票即将开售 附抢票日历

定好闹钟:五一火车票即将开售 附抢票日历

定好闹钟:五一火车票即将开售 附抢票日历 五一假期越来越近,准备出行的朋友们,眼下最该关心的火车票,已经可以开始规划抢购了。 具体来说,购票窗口已经开启:今天(4月15日)就能购买4月29日的车票,4月16日对应4月30日,4月17日则开售5月1日劳动节当天的票。后续日期依次类推:5月2日的票4月1

时间:2026-04-16 16:17
索尼神秘新镜头传闻流出 或为200mm f/2.0 GM

索尼神秘新镜头传闻流出 或为200mm f/2.0 GM

索尼神秘新镜头传闻流出 或为200mm f 2 0 GM 最近摄影圈里有点热闹,一则未经证实的传闻不胫而走:索尼可能正在秘密研发一支规格惊人的200mm f 2 0 GM镜头。如果这消息最终坐实,那可就有好戏看了——这意味着索尼将带着“大炮”正式杀入这个原本由适马、老蛙等品牌把持的特定战场,高端定焦

时间:2026-04-16 16:15
性能暴增40倍!特斯拉最新一代AI5芯片成功流片:马斯克首次公开实物照

性能暴增40倍!特斯拉最新一代AI5芯片成功流片:马斯克首次公开实物照

性能暴增40倍!特斯拉最新一代AI5芯片成功流片:马斯克首次公开实物照 特斯拉在自研芯片的道路上,又迈出了关键一步。4月15日,埃隆·马斯克在其社交平台X上亲自宣布,特斯拉的AI5 AI芯片已经成功完成流片。消息一出,立刻引发了行业的高度关注。马斯克不仅首次公开了这款芯片的实物照片,向特斯拉AI团队

时间:2026-04-16 16:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程