当前位置: 首页
编程语言
不同长度列表字典转换为多类别汇总表格方法

不同长度列表字典转换为多类别汇总表格方法

热心网友 时间:2026-07-03
转载
直接上结论:两种方法均可将键值长度不等的列表字典转换为宽表,缺失值会自动填充0或'x',根据实际需求选择即可。

在日常数据分析工作中,经常遇到这种嵌套结构:字典的每个键对应一个类别列表,而各列表长度不一致。例如 {'A': ['CATEGORY 2'], 'B': ['CATEGORY 1', 'CATEGORY 2'], 'C': [], 'D': ['CATEGORY 3']},需要将其展平为“宽格式”汇总表:每行一个键,每列一个类别,有则标记1或'x',无则留空。如果直接使用 pd.DataFrame.from_dict(..., orient='index'),会发现pandas默认按位置展开,无法按类别语义对齐,空列表会导致列错位。

下面介绍两种方案:一种简洁高效,一行代码即可完成;另一种灵活可控,适合复杂场景,读者可根据需求选择。

方案一:使用 str.get_dummies() 实现语义清晰的宽表转换——一行代码搞定

import pandas as pd

response = {
    'A': ['CATEGORY 2'],
    'B': ['CATEGORY 1', 'CATEGORY 2'],
    'C': [],
    'D': ['CATEGORY 3'],
}

# 核心思路:把每个列表用 '|' 拼成字符串,然后扔给 get_dummies() 自动拆分
out = (
    pd.Series(map('|'.join, response.values()), index=response.keys())
    .rename_axis('ITEM')
    .str.get_dummies()
    .reset_index()
)

print(out)

运行结果如下:

  ITEM  CATEGORY 1  CATEGORY 2  CATEGORY 3
0    A           0           1           0
1    B           1           1           0
2    C           0           0           0
3    D           0           0           1

如果需要显示为 'x' 而非数字1,可在最后添加 .replace({0: '', 1: 'x'})。注意:这会将数值列转换为字符串类型,后续无法进行数值计算,仅适用于展示场景。

方案二:字典推导结合 pd.DataFrame.from_dict()——逻辑直观,完全可控

# 构造中间字典:每个键对应一个 {类别: 'X', ...} 的字典
intermediate = {
    k: {v: 'X' for v in lst} 
    for k, lst in response.items()
}

out = pd.DataFrame.from_dict(intermediate, orient='index') \
    .rename_axis('ITEM') \
    .reset_index() \
    .fillna('')  # 空值变空字符串,保持 'X' 标记风格

print(out)

输出结果(使用 'X' 标记):

  ITEM CATEGORY 1 CATEGORY 2 CATEGORY 3
0    A                       X         
1    B          X          X           
2    C                                 
3    D                                X

关键注意事项与技巧

  • str.get_dummies() 仅接受字符串类型的Series,空列表 [] 经过 '|'.join([]) 后变为空字符串 '',get_dummies 会自动为其生成全零行,行为稳定可靠。
  • 方案二中的 fillna('') 必须在 reset_index() 之后调用,否则索引列也可能会被填充为空字符串。
  • 如果类别名称包含空格、斜杠等特殊字符,get_dummies 默认可以处理。但若后续用于机器学习特征,建议提前标准化,例如使用 .str.replace(r'\s+', '_', regex=True) 替换空格。
  • 两种方法都能自动提取所有唯一类别作为列名,无需手动去重和排序。如需固定列顺序,可在最后添加 reindex(columns=['ITEM', 'CATEGORY 1', 'CATEGORY 2', 'CATEGORY 3'])

总结:如果追求快速原型和简洁代码,推荐方案一;如果需要更灵活的定制(例如支持多值权重、自定义标记符)或更易于调试,方案二更为合适。在生产环境中,更推荐方案二,因其可控性更高。

来源:https://www.php.cn/faq/2752634.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
PyTorch中使用多维索引张量对高维张量批量索引的正确方法

PyTorch中使用多维索引张量对高维张量批量索引的正确方法

本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B,对形状为 [b, m, n] 的高维张量 A 执行高效批量索引,最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。 很多人处理高维张量的批量索引时都会

时间:2026-07-03 06:53
Go中...操作符解包切片传递可变参数函数

Go中...操作符解包切片传递可变参数函数

在 Go 语言中,` ` 运算符放在切片变量后面(如 `slice `)的作用是将该切片“展开”为多个独立参数,专门用于调用那些接受可变参数(` T`)的函数,例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖,并非省略号或通配符,能够帮助开发者更简洁地处理

时间:2026-07-03 06:53
macOS与WSL2下PHP多版本切换失效问题排查与修复指南

macOS与WSL2下PHP多版本切换失效问题排查与修复指南

本文深入分析在 macOS 或 WSL2(Ubuntu)开发环境中,通过 Homebrew 管理 PHP 多版本时,php -v 始终显示旧版本(如 php@5 6)的深层原因,并给出系统性解决方案,覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。 遇到这种情况的

时间:2026-07-03 06:53
PHP JSON解析深层嵌套对象属性访问失败的解决方法

PHP JSON解析深层嵌套对象属性访问失败的解决方法

使用 json_decode() 解析 API 返回的 JSON 数据时,经常遇到某个子属性无法正常获取,始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失,而是对象嵌套层级比预期更深,导致访问路径不正确。 举例来说,你看到返回的 JSON 里有一个 appea

时间:2026-07-03 06:53
nnU-Net v2预处理卡死问题的成因分析与实用解决指南

nnU-Net v2预处理卡死问题的成因分析与实用解决指南

> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例样本)时,程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞,适当降低并发数即可稳定完成全量预处理。 你在使用 `nnunetv2_plan_and_prepr

时间:2026-07-03 06:53
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜