当前位置: 首页
编程语言
如何基于另一数据框时间戳中心对 Pandas 数据框进行时间窗口滚动均值计算

如何基于另一数据框时间戳中心对 Pandas 数据框进行时间窗口滚动均值计算

热心网友 时间:2026-05-05
转载

如何基于另一数据框时间戳中心对 Pandas 数据框进行时间窗口滚动均值计算

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

本文介绍如何将高频数据框(如每15秒采样)中以低频参考时间点(如每5分钟)为中心、按真实时间窗口(如±2.5分钟)计算滚动均值,并精准对齐到参考时间点。核心使用 rolling(..., on='time', center=True) 与 merge_asof 协同实现。

在时序数据分析中,我们常常会遇到一个经典难题:如何将高频采集的传感器数据(比如每15秒记录一次的车速),精准地聚合到另一组低频发生的事件时间点上(比如每5分钟的系统快照时间)?

这里的关键在于,我们需要的不是简单粗暴地按固定时间分桶。真正的需求是:以低频数据框df2中的每一个时间戳为“圆心”,在高频数据框df1中,划出一个前后对称的时间窗口(例如前后各2.5分钟,总宽度5分钟),然后计算这个窗口内所有样本的均值。这种“中心对齐的时间滑动窗口”操作,用常规的resample()groupby()很难直接实现,必须借助Pandas中时间感知的滚动操作与近似连接功能协同完成。

✅ 正确实现步骤

下面这套方法,可以说是处理这类问题的标准答案,兼顾了逻辑的严谨性和执行的效率。

  1. 打好基础:统一时间格式
    第一步永远是确保时间列的数据类型正确。将两个数据框的时间列都转换为Pandas可识别的datetime类型,这是后续所有时间操作的前提。

    df1['time'] = pd.to_datetime(df1['time'])
    df2['time'] = pd.to_datetime(df2['time'])
  2. 核心计算:在df1上生成中心滚动均值
    这是实现“中心对齐”窗口的关键一步。使用rolling(window="300s", on="time", center=True)方法:window="300s"定义了5分钟的总窗口宽度,而center=True这个参数至关重要,它确保了窗口是以当前行的时间戳为几何中心向两侧展开(即±150秒)。计算出的均值会自然地与原始时间戳对齐。

    df1_rolling = df1.rolling(window="300s", on="time", center=True).mean()
    df1 = df1.join(df1_rolling.add_suffix("_a vg"))  # 合并均值列,避免重复列名
  3. 精准匹配:用merge_asof进行时间近似连接
    现在,我们需要把df2中的每个参考时间点,与df1中计算好滚动均值的对应行匹配起来。这里就要请出merge_asof了。它的默认行为是向后查找,但为了获得真正意义上的“最近邻”匹配,有几个参数必须设置到位:首先确保两个表都按时间排序,然后设置direction='nearest'来寻找最近的时间点,再通过tolerance参数(例如15秒)控制匹配的最大允许误差。

    df1_sorted = df1.sort_values('time')
    df2_sorted = df2.sort_values('time')
    result = pd.merge_asof(
        df1_sorted,
        df2_sorted.rename(columns={'speed': 'speed_df2'}),
        on='time',
        tolerance=pd.Timedelta('15s'),
        allow_exact_matches=True,
        direction='nearest'  # 关键:改为 'nearest' 才能找最近时间点(而非仅向前/向后)
    )
  4. 清理结果:过滤未匹配成功的行(可选)
    匹配完成后,可能会存在一些未能成功找到对应时间窗口的行,其来自df2的列值为NaN。根据分析需求,可以选择将这些行过滤掉,保证结果集的整洁。

    result = result.dropna(subset=['speed_df2'])

⚠️ 几个必须留意的细节:

  • direction='nearest'参数是灵魂:这个参数在Pandas较新版本(≥1.1.0)中引入,是实现“寻找最近时间戳”功能的关键。如果使用旧版本,就需要手动实现复杂逻辑,非常不推荐。
  • 边界处的NaN是正常的:使用center=True进行滚动计算时,在数据序列的开头和结尾,由于无法构成完整的对称窗口,结果会是NaN。这是预期行为。如果一定要填充,可以用前向/后向填充,但需警惕这会引入数据偏差。
  • 时间类型是硬性要求:时间列必须是datetime64[ns]类型,否则rolling(on=...)会报错。用pd.to_datetime()进行转换是稳妥的做法。
  • 注意数据覆盖范围:如果df1的时间范围不足以覆盖df2中某个时间点所需的±2.5分钟窗口,那么该点的滚动均值就会是NaN,但merge_asof仍可能根据directiontolerance的设置匹配到最近的行。

✅ 完整可运行示例(精简版)

理论说再多,不如一段可运行的代码来得实在。下面是一个精简但完整的示例,涵盖了从数据构建到最终输出的全过程:

import pandas as pd
import numpy as np

# 示例数据构建(略去冗长原始数据,此处用前几行示意)
df1 = pd.DataFrame({
    'time': pd.date_range('2022-10-04 00:00:24', periods=80, freq='15S'),
    'speed': np.random.uniform(3.0, 4.6, 80)
})
df2 = pd.DataFrame({
    'time': pd.to_datetime(['2022-10-04 00:03:28', '2022-10-04 00:08:34',
                            '2022-10-04 00:13:25', '2022-10-04 00:18:27']),
    'speed': [4.646, 5.328, 5.895, 5.665]
})

# 步骤1:计算 df1 的中心滚动均值(5分钟窗)
df1['speed_a vg'] = df1.rolling(window='300s', on='time', center=True)['speed'].mean()

# 步骤2:近似时间对齐(关键:direction='nearest')
merged = pd.merge_asof(
    df1.sort_values('time'),
    df2.sort_values('time').rename(columns={'speed': 'speed_df2'}),
    on='time',
    direction='nearest',
    tolerance=pd.Timedelta('15s')
)

# 步骤3:保留匹配成功的行
final = merged.dropna(subset=['speed_df2']).reset_index(drop=True)
print(final[['time', 'speed', 'speed_a vg', 'speed_df2']])

这套方案经过大量实践检验,在保证计算精度的同时,也拥有出色的性能,即使面对百万级别的时间序列对齐任务也能从容应对,可以说是工业级时序特征工程中的一项标准实践了。

来源:https://www.php.cn/faq/2345382.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Debian PHP服务如何启动

Debian PHP服务如何启动

在Debian系统中启动PHP服务的完整指南 在Debian操作系统环境中,启动PHP服务通常指的是启用PHP-FPM(FastCGI Process Manager)进程管理器。作为处理PHP脚本的高性能解决方案,PHP-FPM能够显著提升网站和应用的响应速度。本文将详细介绍在Debian系统上启

时间:2026-05-05 17:24
C++ Linux系统编程的关键概念

C++ Linux系统编程的关键概念

C++ Linux系统编程:从基础到精通的必备知识图谱 你是否希望在Linux平台上使用C++开发出高性能、高可靠性的底层软件?系统编程是直接与操作系统内核交互的艺术,涉及众多核心概念与技术细节。掌握它,意味着你能够充分利用硬件资源,构建高效、稳定的系统级应用。本文为你梳理了从入门到精通必须掌握的关

时间:2026-05-05 17:24
Linux下C++代码风格与规范

Linux下C++代码风格与规范

Linux下C++代码风格与规范:写出清晰、健壮、可协作的代码 在Linux平台进行C++项目开发时,遵循一套统一、专业的代码风格与规范绝非仅仅是形式上的要求。它深刻影响着代码的可读性、可维护性,更是保障团队高效协同开发的关键。试想,当你需要维护或扩展一个项目时,如果面对的是命名混乱、格式随意的代码

时间:2026-05-05 17:24
Go语言中的自定义类型与类型别名详解

Go语言中的自定义类型与类型别名详解

1 自定义类型 在Go语言中,type关键字是定义新类型的核心工具。它允许开发者基于现有类型(如基本类型、结构体或接口)创建自定义类型,从而为代码建立更明确的语义层次和类型安全边界。 1 1 基于基本类型创建自定义类型 从Go语言的基本类型(如int、string)创建自定义类型,是一种提升代码表

时间:2026-05-05 17:24
Go语言中的Panic和Recover,从原理到实践

Go语言中的Panic和Recover,从原理到实践

1 Panic和Recover的基本概念 在Go语言编程中,错误处理遵循着明确而优雅的哲学:优先采用显式的错误返回值。然而,当程序遭遇那些无法通过常规流程处理的严重故障时,就需要请出Panic和Recover这对特殊的搭档。本质上,Panic是程序在面临不可恢复错误时主动发起的“紧急终止”信号;而

时间:2026-05-05 17:23
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程