如何用 Pandas 合并 CSV 与 Excel 文件并识别数值差异
面对结构不一致的CSV和Excel数据,如何一步到位地完成读取、对齐与合并,并生成一份清晰展示差异值和条件标记的新表格?本文将为你揭晓答案。
在日常的数据核对与整合工作中,我们经常面临一个典型难题:需要快速合并来自不同系统、列名不统一、日期格式各异的CSV与Excel文件,并精准定位关键数值字段之间的差异。本文将以一个具体场景为例,逐步拆解这一数据处理流程。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
假设您手中有两份数据源:一份是包含 test date、id、values 1 三列的CSV文件;另一份是Excel文件,其有效表头起始于第5行,包含 id、date(格式为“月/日/年”)、values 2 三列。我们的核心目标是:通过 id 关联两条记录,统一混乱的日期格式,计算 values 2 与 values 1 的差值,并自动标记出差值“是否超过2”。
以下是一套完整、可直接复用的Python解决方案,兼顾了代码的健壮性与可读性:
import pandas as pd
# 1. 分别读取 CSV 和 Excel(跳过前4行,使第5行为列名)
df_csv = pd.read_csv("test.csv")
df_excel = pd.read_excel("test.xlsx", skiprows=4)
# 2. 标准化列名,便于后续合并
df_csv = df_csv.rename(columns={"test date": "date", "values 1": "value_1"})
df_excel = df_excel.rename(columns={"values 2": "value_2"})
# 3. 统一日期格式:将 Excel 中的 date 转为 YYYY-MM-DD 字符串(与 CSV 一致)
df_excel["date"] = pd.to_datetime(df_excel["date"]).dt.strftime("%Y-%m-%d")
# 4. 基于 'id' 和 'date' 双键合并(推荐:避免仅用 id 导致多对一歧义)
merged = pd.merge(df_csv, df_excel, on=["id", "date"], how="inner")
# 5. 构建结果表,计算差异并添加布尔标记
result = merged[["date", "id", "value_1", "value_2"]].copy()
result["discrepancy"] = result["value_2"] - result["value_1"]
result["Over 2?"] = result["discrepancy"] > 2 # 自动转为布尔值,可选 .map({True: "yes", False: "no"})
print(result)
操作过程中的关键注意事项:
- 若Excel文件的表头不在第5行,只需灵活调整
skiprows参数即可;对于更复杂的表头结构,可考虑使用header=None配合iloc进行手动指定。 - 使用
["id", "date"]双键进行合并,比仅用id更稳妥,能有效防止同一ID对应多个日期时产生意外的笛卡尔积,确保数据匹配的准确性。 pd.to_datetime(...).dt.strftime()这一组合操作,确保了不同来源日期格式的完全对齐,避免了因字符串格式差异导致的匹配失败问题。- 生成的
"Over 2?"列默认为布尔型(True/False)。若需要更直观的“是”/“否”或“yes”/“no”显示,可在最后追加一行代码进行映射转换:result["Over 2?"] = result["Over 2?"].map({True: "yes", False: "no"}) - 最终的结果数据框,可以轻松导出为新的Excel文件,方便分享与存档:
result.to_excel("discrepancy_report.xlsx", index=False)。
这套流程清晰直接,既适合数据分析的初学者快速上手,也能高效满足日常数据稽核、自动化报表生成及数据清洗的需求。下次再遇到结构混乱的源数据时,不妨尝试运用这个方法,实现高效的数据对齐与差异分析。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Go语言中Struct Tag详解:XML解析必备的字段标签机制
Go语言Struct Tag深度解析:XML数据绑定与字段映射的核心机制 Struct Tag是Go语言为结构体字段附加元数据的核心语法,广泛应用于XML、JSON等数据序列化场景。它通过反引号包裹的键值对进行声明,本质上是指导编码器与解码器如何精确映射结构体字段与外部数据格式。缺少它,Go程序将无
c#如何调用Python脚本_c#Python脚本的最佳实践与常见坑点
C 调用Python脚本:最佳实践与常见坑点解析 使用 Process Start 调用 Python 脚本:最直接但需注意路径与环境 在大多数情况下,Process Start 是实现C 调用Python脚本最快捷的方案。它无需引入额外的NuGet包,也不强制要求Python解释器必须配置在系统环
c#如何定义常量_c#定义常量的3种方式
C 常量定义:const、static readonly与静态类的实战指南 在C 编程实践中,常量的定义是基础但至关重要的环节。选择不当的常量声明方式,可能会为项目引入难以察觉的隐患。本文将深入解析C 中定义常量的三种核心方式:const、static readonly以及使用静态类进行封装,帮助你
c#如何使用MEF框架_c#MEF框架的正确用法与注意事项
CompositionContainer 初始化失败常因类型反射加载失败,主因是程序集版本 框架不匹配、DLL未显式加载或缺失部署依赖;Import为null则多因Catalog未包含对应Export、路径错误或契约不一致。 为什么 CompositionContainer 初始化失败常报“Unab
C#怎么压缩并解压ZIP文件_C#如何管理压缩包【实战】
C 怎么压缩并解压ZIP文件_C 如何管理压缩包【实战】 说到在C 里处理ZIP文件,一个核心原则是:System IO Compression 是最稳妥的 ZIP 压缩方案。这意味着,你需要显式设置压缩级别为 CompressionLevel Optimal,使用正确的 ZipArchiveMod
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

