当前位置: 首页
编程语言
Pandas按公交线路分组动态计算城市占比

Pandas按公交线路分组动态计算城市占比

热心网友 时间:2026-07-03
转载

在数据分析工作中,经常需要根据多个维度计算“相对频率”——例如每条公交线路在不同城市出现的次数占比。这个需求看似简单,但实际操作中稍不注意就容易走弯路。本文将深入讲解如何利用 pandas 高效完成这一任务,既支持展示全部城市列(含零占比),也提供仅显示非零结果的精简版本。

先看一个具体场景:我们有一个数据框,包含两列——公交线路编号(Bus_no.)和所属城市(City)。目标是:针对每条公交线路,统计其在各个城市的出现频次,并转换为该线路总记录数的百分比。举例来说,线路 3412. 总共出现 3 次,其中 Kolkata 1 次、Mumbai 2 次,那么占比分别为 33.33% 和 66.67%。

Pandas 中实现按公交线路分组的城市占比动态计算(百分比统计)

✅ 推荐方案:pd.crosstab + 归一化(含全部城市)

当我们需要生成一个固定列结构的矩阵表格——所有城市作为列,即使某条线路未出现也显示 0.0%——此时 pd.crosstab 是最直接高效的实现方式:

import pandas as pd

# 构建示例数据集
df = pd.DataFrame({
    'Bus_no.': ['3412.', '7658.', '3412.', '5516.', '7658.', '3412.'],
    'City': ['Kolkata', 'Nagpur', 'Mumbai', 'Kolkata', 'Chennai', 'Mumbai']
})

# 动态计算每条线路在各城市的百分比(行归一化)
result = (
    pd.crosstab(
        index=df['Bus_no.'],
        columns=df['City'],
        normalize='index'  # 按行(即每个 Bus_no.)归一化
    )
    .mul(100)            # 转换为百分比格式
    .round(2)            # 保留两位小数
    .reset_index()       # 将 Bus_no. 变为普通列
    .rename_axis(columns=None)  # 清除列索引名称
)

print(result)

输出结果:

  Bus_no.  Chennai  Kolkata  Mumbai  Nagpur
0   3412.      0.0    33.33   66.67     0.0
1   5516.      0.0   100.00     0.0     0.0
2   7658.     50.0     0.00     0.0    50.0

✅ 优势:自动覆盖全部城市(Chennai, Kolkata, Mumbai, Nagpur),生成标准 DataFrame,便于后续导出或可视化呈现。

⚙️ 替代方案:groupby().value_counts()(仅非零项)

如果只需要精简结果——跳过那些 0% 的记录,并且不介意多级索引格式——那么采用 groupby 结合 value_counts 会更加轻便灵活:

percentages = df.groupby('Bus_no.')['City'].value_counts(normalize=True).mul(100).round(2)
print(percentages)

输出:

Bus_no.  City   
3412.    Mumbai      66.67
         Kolkata     33.33
5516.    Kolkata    100.00
7658.    Chennai     50.00
         Nagpur      50.00
Name: proportion, dtype: float64

⚠️ 注意:此结果为 Series,索引为 MultiIndex;如需转换为宽表,需额外调用 .unstack(fill_value=0),但会丢失未出现城市的列(除非手动补全)。

? 关键注意事项

  • 列名大小写敏感:示例中 City 值存在大小写混用(比如 "Kolkata" vs "kolkata"),实际应用前建议统一格式:df['City'] = df['City'].str.title().str.upper()
  • 缺失值处理:若原始数据包含空值(NaN),crosstab 默认会忽略这些行;如需保留,可先填充:df['City'] = df['City'].fillna('Unknown')
  • 性能提示:对于百万级大规模数据,crosstab 比多重 groupby 效率更高;normalize='index' 底层基于向量化运算,完全无需编写循环。
  • 扩展应用:这种模式不仅适用于公交线路分析——任何涉及“主键-类别”的频次占比计算场景都能套用,例如用户-商品购买占比、ID-状态分布等。

通过以上两种方法,你可以灵活生成符合业务需求的动态百分比报表:既支持全维度矩阵展示,也支持紧凑型分组统计。简单来说就是一次定义、动态计算,后续直接拿来使用即可。

来源:https://www.php.cn/faq/2752633.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
PyTorch中使用多维索引张量对高维张量批量索引的正确方法

PyTorch中使用多维索引张量对高维张量批量索引的正确方法

本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B,对形状为 [b, m, n] 的高维张量 A 执行高效批量索引,最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。 很多人处理高维张量的批量索引时都会

时间:2026-07-03 06:53
Go中...操作符解包切片传递可变参数函数

Go中...操作符解包切片传递可变参数函数

在 Go 语言中,` ` 运算符放在切片变量后面(如 `slice `)的作用是将该切片“展开”为多个独立参数,专门用于调用那些接受可变参数(` T`)的函数,例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖,并非省略号或通配符,能够帮助开发者更简洁地处理

时间:2026-07-03 06:53
macOS与WSL2下PHP多版本切换失效问题排查与修复指南

macOS与WSL2下PHP多版本切换失效问题排查与修复指南

本文深入分析在 macOS 或 WSL2(Ubuntu)开发环境中,通过 Homebrew 管理 PHP 多版本时,php -v 始终显示旧版本(如 php@5 6)的深层原因,并给出系统性解决方案,覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。 遇到这种情况的

时间:2026-07-03 06:53
PHP JSON解析深层嵌套对象属性访问失败的解决方法

PHP JSON解析深层嵌套对象属性访问失败的解决方法

使用 json_decode() 解析 API 返回的 JSON 数据时,经常遇到某个子属性无法正常获取,始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失,而是对象嵌套层级比预期更深,导致访问路径不正确。 举例来说,你看到返回的 JSON 里有一个 appea

时间:2026-07-03 06:53
nnU-Net v2预处理卡死问题的成因分析与实用解决指南

nnU-Net v2预处理卡死问题的成因分析与实用解决指南

> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例样本)时,程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞,适当降低并发数即可稳定完成全量预处理。 你在使用 `nnunetv2_plan_and_prepr

时间:2026-07-03 06:53
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜