Pandas读取外部数据的几种实现方法
Pandas 支持读取几乎所有常见的外部数据格式,核心是 pd.read_* 系列函数,以下是最常用的格式及用法:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
处理数据的第一步,往往是把外部数据“搬”进来。Pandas 在这方面堪称全能选手,其核心的 pd.read_* 系列函数几乎覆盖了所有常见的数据源。接下来,我们就逐一拆解这些最常用的读取方法。
1. 读取文本文件(CSV/TXT)
说到数据读取,CSV 和 TXT 文本文件绝对是出场率最高的选手。核心函数 pd.read_csv() 功能强大,从分隔符、编码到列名,几乎都能按需定制。
import pandas as pd
# 读取CSV文件(默认逗号分隔)
df = pd.read_csv(
"data.csv", # 文件路径(本地/URL)
encoding="utf-8", # 编码(中文常用utf-8/gbk)
header=0, # 第0行作为列名(默认)
index_col=None, # 不将某列作为索引
sep=",", # 分隔符(TXT常用"\t")
na_values=["NA", "缺失", "-"], # 哪些值视为NaN
skiprows=1, # 跳过前1行(如跳过注释行)
usecols=["姓名", "分数", "班级"] # 只读取指定列
)
print("读取的CSV数据:")
print(df.head()) # 查看前5行
用好 read_csv,关键在于几个核心参数。下面这个表格帮你快速掌握:
| 参数 | 作用 | 常用值 |
|---|---|---|
| encoding | 文件编码 | utf-8/gbk(解决中文乱码) |
| header | 列名行号 | None(无列名)/0(第一行) |
| na_values | 缺失值映射 | ["", "NA", "无"] |
| usecols | 筛选列 | ["列1", "列2"](减少内存占用) |
| dtype | 指定列类型 | {"分数": int, "班级": str} |
2. 读取 Excel 文件(XLS/XLSX)
对于业务场景中常见的 Excel 文件,Pandas 同样提供了得力的工具——pd.read_excel()。不过,使用前需要先安装对应的依赖库。
pip install openpyxl # 读取xlsx pip install xlrd # 读取xls
依赖搞定后,基础用法其实和读 CSV 很相似:
import pandas as pd
# 读取Excel文件(指定sheet)
df = pd.read_excel(
"data.xlsx",
sheet_name="学生成绩", # 指定sheet名称/索引(0为第一个)
header=0,
usecols="A:C", # 只读取A-C列
dtype={"分数": float},
na_values=["未填写"]
)
print("读取的Excel数据:")
print(df.info()) # 查看数据基本信息
3. 读取 JSON 文件
随着 Web API 和前后端交互越来越普遍,JSON 格式的数据也日益常见。用 pd.read_json() 来处理这类结构化的数据,非常方便。
import pandas as pd
# 读取JSON文件
df = pd.read_json(
"data.json",
orient="records", # JSON格式(records:[{"列1":值}, ...])
encoding="utf-8"
)
print(df.head())
4. 读取数据库数据(MySQL/PostgreSQL)
当数据存储在关系型数据库里时,Pandas 也能直接连接并读取。这里以 MySQL 为例,首先需要安装对应的 Python 驱动。
pip install pymysql
驱动安装好后,流程就清晰了:建立连接、执行 SQL 查询、将结果读入 DataFrame。
import pandas as pd
import pymysql
# 建立数据库连接
conn = pymysql.connect(
host="localhost",
user="root",
password="123456",
database="test_db"
)
# 读取数据库表
df = pd.read_sql(
"SELECT * FROM student_scores", # SQL语句
con=conn # 数据库连接
)
conn.close() # 关闭连接
print(df.head())
可以看到,无论数据来自哪里,Pandas 都提供了一套相对统一、简洁的接口来读取,这正是其强大和易用之处。掌握这几类核心的读取方法,基本上就能应对日常绝大多数数据导入的需求了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
如何从Debian From Scratch迁移到其他系统
从Debian From Scratch迁移到其他系统:一份详尽的实战指南 从零开始构建的Debian From Scratch(DFSA)系统,凝聚了构建者的心血,但也意味着它与标准发行版有着根本的不同。因此,将其迁移到另一个系统,绝非简单的复制粘贴,而是一项需要周密计划的系统工程。别担心,只要按
Debian如何解决Rust的依赖问题
Debian 下解决 Rust 依赖的实用方案 一 基础准备与环境 想在 Debian 上顺畅地玩转 Rust,第一步不是急着写代码,而是把地基打牢。这里有两个核心环节:管理好 Rust 工具链本身,以及准备好系统级的构建环境。 安装或更新 Rust 工具链:官方推荐的 rustup 是首选工具,它
Rust在Debian上如何进行调试
Debian 系统下 Rust 程序调试的完整方法与实战技巧 一、 环境配置与工具安装 高效调试 Rust 程序始于完善的工具链。在 Debian 系统上进行准备工作,能确保后续调试流程顺畅无阻。 安装核心调试工具与语言支持: 安装 GDB 与 LLDB: 通过终端执行 sudo apt updat
如何通过cmatrix进行安全审计
定位与总体思路 开门见山地说,把 cmatrix 当作一个安全审计工具,这本身就是一个需要澄清的“美丽的误会”。cmatrix 本质上是一个在终端里显示字符矩阵的娱乐程序,它本身并不提供日志记录、实时告警、资产清点或行为分析这些核心的审计能力。那么,如何理解“通过它进行安全审计”呢?更准确的定位,是
如何利用cmatrix进行性能测试
cmatrix的定位与用途 首先得明确一点:cmatrix 本质上是一个在终端里显示字符矩阵动画的程序。它最出圈的用法,是作为一种“可视化监控”的趣味工具,用来给冷冰冰的命令行界面增添一些动态效果。但是,请务必记住它的核心定位——它营造的是视觉效果,而非可量化的性能数据。 这意味着,cmatrix
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

