当前位置: 首页
编程语言
Polars 自定义函数返回多列的正确实现方式

Polars 自定义函数返回多列的正确实现方式

热心网友 时间:2026-05-05
转载

Polars 自定义函数返回多列的正确实现方式

在 Polars 中,自定义函数需直接返回多个 Expr 对象(而非 struct),再通过生成器表达式或字典解包动态重命名并注入列,才能高效、可扩展地添加多列。

Polars 自定义函数返回多列的正确实现方式

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在 Polars 数据处理中,如何通过自定义函数一次性生成多列数据?这是许多开发者都会遇到的需求,但实现方法上存在一个常见误区。核心要点在于:函数应当直接返回多个独立的表达式对象,而不是将它们合并为一个结构体。

Polars 的 with_columns() 方法本身支持批量添加新列。然而,它不支持将 pl.struct() 的结果通过 .alias([“col1”, “col2”]) 自动拆分为多个独立列——这是新手最容易出错的地方。pl.struct() 创建的是一个包含嵌套结构的单列,它不会自动展开为平行的多列。正确的解决方案是:让自定义函数直接返回多个 Expr 实例,然后利用 Polars 的表达式组合机制来完成列名的绑定与数据插入。

✅ 推荐实现:函数返回元组,配合 enumerate 动态别名

import polars as pl
import numpy as np

def _func(x: pl.Expr) -> tuple[pl.Expr, pl.Expr]:
    x1 = x + 1
    x2 = x + 2
    return x1, x2  # 直接返回两个 Expr,非 struct!

df = pl.DataFrame({"test": np.arange(1, 11)})

# 方式1:按序号自动命名(推荐,可扩展至 N 列)
result = df.with_columns(
    expr.alias(f"test{i+1}") 
    for i, expr in enumerate(_func(pl.col("test"))))
print(result)

执行上述代码后,输出结果如下:

shape: (10, 3)
┌──────┬───────┬───────┐
│ test ┆ test1 ┆ test2 │
│ ---  ┆ ---   ┆ ---   │
│ i32  ┆ i32   ┆ i32   │
╞══════╪═══════╪═══════╡
│ 1    ┆ 2     ┆ 3     │
│ 2    ┆ 3     ┆ 4     │
│ …    ┆ …     ┆ …     │
└──────┴───────┴───────┘

✅ 优势:无需硬编码列名,轻松适配任意数量返回值(如后续改为 x+1, x+2, x+3, x+4,仅需保持 enumerate 逻辑即可)。

? 灵活命名方案:使用 zip 或字典解包

如果需要为每一列指定自定义名称(例如 “a”、“b”),也有两种简洁高效的写法。

方式2:zip + 生成器(语义清晰)

df.with_columns(
    expr.alias(name) 
    for expr, name in zip(_func(pl.col("test")), ["a", "b"]))

方式3:字典解包(函数式风格,适合配置驱动)

df.with_columns(
    **dict(zip(["a", "b"], _func(pl.col("test")))))

这两种方法都避免了冗长的链式 .alias() 调用。更重要的是,它们天然确保了名称列表与表达式序列的长度一致性——一旦长度不匹配,便会抛出 ValueError,有助于在开发阶段快速定位问题。

⚠️ 注意事项与最佳实践

  • ❌ 避免使用 pl.struct([...]).alias([...]):Polars 不支持结构体列的“多别名展开”,这种写法通常会导致静默失败或 SchemaError 错误。
  • ✅ 建议明确标注函数返回类型(如 tuple[pl.Expr, ...]),这能显著提升代码的可维护性,并增强 IDE 的智能提示与类型检查功能。
  • ? 性能考量:对于复杂计算逻辑,可以封装为 pl.UDF(用户定义函数)。但纯表达式链(如本例)通常具有更优的执行性能,应优先考虑。
  • ? 输入一致性:所有返回的 Expr 必须基于同一个输入列(例如都是 pl.col(“test”)),否则可能触发 ComputeError。若需进行跨列运算,建议在 with_columns() 外部统一组织好计算逻辑。

掌握以上方法,你不仅能准确实现双列输出,还能轻松扩展到任意多列的场景。这样,你的代码在保持简洁性与高可读性的同时,也能充分发挥 Polars 高性能计算框架的优势。

来源:https://www.php.cn/faq/2312529.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
centos下php内存如何设置

centos下php内存如何设置

CentOS系统PHP内存限制调整:完整配置指南与优化技巧 在CentOS服务器环境中运行PHP应用程序时,合理设置内存限制是确保系统稳定性和性能优化的关键环节。正确配置PHP内存上限不仅能防止应用因内存不足而崩溃,还能有效避免服务器资源被过度占用。本文将为您提供一套详细、可操作的CentOS PH

时间:2026-05-05 19:28
CentOS Java备份恢复步骤是什么

CentOS Java备份恢复步骤是什么

CentOS Ja va备份与恢复步骤 在CentOS系统上维护Ja va环境,备份与恢复是系统管理员和开发者的必备技能。一套清晰、完整的操作流程,不仅能应对突发故障,更是系统迁移和版本升级的可靠保障。下面,我们就来梳理一下从备份到恢复,乃至重建的全套操作要点。 一 备份范围与准备 动手之前,先得明

时间:2026-05-05 19:28
CentOS Java内存管理如何配置

CentOS Java内存管理如何配置

CentOS 上 Ja va 内存管理配置指南 在 CentOS 上部署 Ja va 应用,内存配置是个绕不开的技术活。配置得当,应用运行如丝般顺滑;配置不当,轻则性能抖动,重则服务宕机。今天,我们就来系统性地梳理一下,如何为你的 Ja va 应用“量体裁衣”,配置出最合适的内存参数。 一 核心原则

时间:2026-05-05 19:28
Debian中phpstorm如何使用插件市场

Debian中phpstorm如何使用插件市场

Debian 中 PhpStorm 使用插件市场的完整步骤 想在 Debian 上用好 PhpStorm,插件市场绝对是你的效率倍增器。下面这份操作指南,将帮你从安装到管理,玩转整个插件生态。 一 准备工作 万事开头先打基础。首先,你得确保 PhpStorm 已经在 Debian 系统上安家落户。通

时间:2026-05-05 19:28
Debian中phpstorm内存设置方法

Debian中phpstorm内存设置方法

Debian 中 PhpStorm 内存设置方法 想让 PhpStorm 在 Debian 上跑得更快更稳?合理配置内存是关键。下面这份指南,将帮你避开常见坑点,高效完成设置。 一 配置文件路径与推荐修改方式 最推荐的方式,是直接编辑 PhpStorm 的 vmoptions 文件。这个文件是 JV

时间:2026-05-05 19:28
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程