不同长度列表字典转换为多类别汇总表格方法
直接上结论:两种方法均可将键值长度不等的列表字典转换为宽表,缺失值会自动填充0或'x',根据实际需求选择即可。
在日常数据分析工作中,经常遇到这种嵌套结构:字典的每个键对应一个类别列表,而各列表长度不一致。例如 {'A': ['CATEGORY 2'], 'B': ['CATEGORY 1', 'CATEGORY 2'], 'C': [], 'D': ['CATEGORY 3']},需要将其展平为“宽格式”汇总表:每行一个键,每列一个类别,有则标记1或'x',无则留空。如果直接使用 pd.DataFrame.from_dict(..., orient='index'),会发现pandas默认按位置展开,无法按类别语义对齐,空列表会导致列错位。
下面介绍两种方案:一种简洁高效,一行代码即可完成;另一种灵活可控,适合复杂场景,读者可根据需求选择。
方案一:使用 str.get_dummies() 实现语义清晰的宽表转换——一行代码搞定
import pandas as pd
response = {
'A': ['CATEGORY 2'],
'B': ['CATEGORY 1', 'CATEGORY 2'],
'C': [],
'D': ['CATEGORY 3'],
}
# 核心思路:把每个列表用 '|' 拼成字符串,然后扔给 get_dummies() 自动拆分
out = (
pd.Series(map('|'.join, response.values()), index=response.keys())
.rename_axis('ITEM')
.str.get_dummies()
.reset_index()
)
print(out)
运行结果如下:
ITEM CATEGORY 1 CATEGORY 2 CATEGORY 3 0 A 0 1 0 1 B 1 1 0 2 C 0 0 0 3 D 0 0 1
如果需要显示为 'x' 而非数字1,可在最后添加 .replace({0: '', 1: 'x'})。注意:这会将数值列转换为字符串类型,后续无法进行数值计算,仅适用于展示场景。
方案二:字典推导结合 pd.DataFrame.from_dict()——逻辑直观,完全可控
# 构造中间字典:每个键对应一个 {类别: 'X', ...} 的字典
intermediate = {
k: {v: 'X' for v in lst}
for k, lst in response.items()
}
out = pd.DataFrame.from_dict(intermediate, orient='index') \
.rename_axis('ITEM') \
.reset_index() \
.fillna('') # 空值变空字符串,保持 'X' 标记风格
print(out)
输出结果(使用 'X' 标记):
ITEM CATEGORY 1 CATEGORY 2 CATEGORY 3 0 A X 1 B X X 2 C 3 D X
关键注意事项与技巧
str.get_dummies()仅接受字符串类型的Series,空列表[]经过'|'.join([])后变为空字符串 '',get_dummies 会自动为其生成全零行,行为稳定可靠。- 方案二中的
fillna('')必须在reset_index()之后调用,否则索引列也可能会被填充为空字符串。 - 如果类别名称包含空格、斜杠等特殊字符,get_dummies 默认可以处理。但若后续用于机器学习特征,建议提前标准化,例如使用
.str.replace(r'\s+', '_', regex=True)替换空格。 - 两种方法都能自动提取所有唯一类别作为列名,无需手动去重和排序。如需固定列顺序,可在最后添加
reindex(columns=['ITEM', 'CATEGORY 1', 'CATEGORY 2', 'CATEGORY 3'])。
总结:如果追求快速原型和简洁代码,推荐方案一;如果需要更灵活的定制(例如支持多值权重、自定义标记符)或更易于调试,方案二更为合适。在生产环境中,更推荐方案二,因其可控性更高。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
PyTorch中使用多维索引张量对高维张量批量索引的正确方法
本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B,对形状为 [b, m, n] 的高维张量 A 执行高效批量索引,最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。 很多人处理高维张量的批量索引时都会
Go中...操作符解包切片传递可变参数函数
在 Go 语言中,` ` 运算符放在切片变量后面(如 `slice `)的作用是将该切片“展开”为多个独立参数,专门用于调用那些接受可变参数(` T`)的函数,例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖,并非省略号或通配符,能够帮助开发者更简洁地处理
macOS与WSL2下PHP多版本切换失效问题排查与修复指南
本文深入分析在 macOS 或 WSL2(Ubuntu)开发环境中,通过 Homebrew 管理 PHP 多版本时,php -v 始终显示旧版本(如 php@5 6)的深层原因,并给出系统性解决方案,覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。 遇到这种情况的
PHP JSON解析深层嵌套对象属性访问失败的解决方法
使用 json_decode() 解析 API 返回的 JSON 数据时,经常遇到某个子属性无法正常获取,始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失,而是对象嵌套层级比预期更深,导致访问路径不正确。 举例来说,你看到返回的 JSON 里有一个 appea
nnU-Net v2预处理卡死问题的成因分析与实用解决指南
> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例样本)时,程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞,适当降低并发数即可稳定完成全量预处理。 你在使用 `nnunetv2_plan_and_prepr
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-03 06:53
2026-07-03 06:53
2026-07-03 06:53
2026-07-03 06:53
2026-07-03 06:53
2026-07-03 06:52
2026-07-03 06:52
2026-07-03 06:52
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

