当前位置: 首页
AI资讯
PMDformer长时序预测新方法用减法优化注意力机制解决尺度偏差

PMDformer长时序预测新方法用减法优化注意力机制解决尺度偏差

热心网友 时间:2026-05-20
转载

在能源管理、金融市场分析和交通流量预测这些领域,长期时间序列预测(LTSF)一直是个核心且棘手的任务。现有的方法,尤其是基于Patch的Transformer模型,虽然试图通过捕捉局部语义来理解长序列,却普遍面临一个根本性的瓶颈:非平稳数据中,不同时间片段(Patch)的数值尺度差异,会严重干扰模型对真实模式的判断。

简单来说,当模型试图通过“注意力”机制寻找相似模式时,它很容易被数值大小所迷惑,误将形状迥异但尺度相近的片段关联起来,而忽略了那些真正形状相似、只是处于不同数值水平的片段。这就像戴着有色眼镜看数据,看到的并非全貌。

针对这一痛点,来自西南财经大学、上海科学智能研究院、复旦大学和成都恒图科技的联合研究团队,提出了一种名为PMDformer的创新框架。其核心思路相当巧妙:将每个数据片段(Patch)的“均值”(代表长期趋势)和“残差”(代表局部形状)进行解耦,让模型能更纯粹地关注形状相似性。实验证明,这一方法在多项权威基准测试中,性能全面超越了现有最优模型。

目前,这项研究成果已被顶级学术会议ICLR 2026接收。

现有方法的痛点:尺度差异如何「扭曲」形状建模?

为了处理长序列,将数据切割成小块(Patch)进行分析是常见策略。但问题在于,现实世界的时间序列数据往往是非平稳的——今天的用电量和一年前的用电量,数值水平可能天差地别。这种尺度差异带来了两个关键挑战:

首先,是尺度偏差对形状相似性的遮蔽。注意力机制的计算会受到Patch均值的影响,导致形状高度相似但尺度不同的两个Patch被判定为不相关;相反,形状迥异但恰好处在相似数值区间的Patch,反而可能获得高注意力权重。模型捕捉到的可能只是由数值尺度制造的“幻觉”,而非真正的时序模式。

其次,是跨变量依赖建模的失准。在多变量预测中,不同变量(比如温度与湿度)之间的相关性并非一成不变。早期历史上的弱相关甚至虚假相关关系,如果被不加区分地用于预测近期走势,就会引入大量噪声,导致模型过拟合到无用的信息上。

图1:PMD解耦前后的注意力权重对比。上图显示,在原始序列中,由于尺度差异,注意力错误地偏向了P3;下图显示,经过均值解耦后,注意力权重正确反映了P1与P2之间的形状相似性。

PMDformer:三位一体的解决方案

PMDformer的巧妙之处在于,它通过三个协同工作的核心模块,系统性地解决了上述问题,形成了一个完整的技术闭环。

图2:PMDformer整体架构图

一、Patch均值解耦(PMD):还原形状本质

这是整个框架的基石。其操作非常简洁:对每个Patch,简单地减去其时间维度上的均值。这样一来,原始Patch就被分解为两部分:代表长期趋势的“均值”,和代表局部波动“形状”的残差。与普通的归一化方法不同,PMD只做减法,完整保留了Patch内部的振幅变化和细节结构,让模型能专注于形状本身的相似性比较。

二、近邻变量注意力(PVA):聚焦最相关的跨变量依赖

这个模块基于一个非常直观的洞察:当我们要预测未来时,最近期的历史信息通常最具参考价值。因此,PVA模块在计算不同变量之间的注意力时,不再“翻旧账”式地扫描整个历史窗口,而是将计算严格限制在最近的一个Patch上。

这样做的好处是双重的:一方面,它能精准捕捉对预测最有价值的近期跨变量交互模式,避免被早期不相关的噪声干扰;另一方面,它将计算复杂度从O(C²N)大幅降低到了O(C²),其中C是变量数,N是Patch长度,在处理高维数据时效率提升尤为显著。

三、趋势恢复注意力(TRA):兼顾形状与趋势

PMD模块虽然强化了形状建模,但客观上削弱了长期趋势信息。TRA模块就是为了弥补这一点而设计的。它采用了一种“分离式”的注意力设计:在计算注意力权重(Query/Key)时,只使用代表形状的残差嵌入,确保分数纯粹反映形状相似性;而在生成最终输出(Value)时,则通过加法将之前分离出的Patch均值(趋势信息)重新注入。这样,模型就能同时把握局部的形状模式和全局的趋势动向,做出更稳健的预测。

实验结果:在8个权威基准上全面领先

研究团队在电力、天气、能源、交通等领域的8个广泛使用的真实数据集上进行了系统评估。与8种最新的基线方法对比,PMDformer在7个数据集上的均方误差(MSE)和平均绝对误差(MAE)都达到了最低,展现了其稳定且全面的性能优势。

表1:长时间序列预测任务结果对比。展示了在8个数据集、4种不同预测长度下,各模型的MSE与MAE指标完整数据。

计算效率:以更少资源实现更高性能

除了精度高,PMDformer在计算效率上也表现突出。在变量数量从100激增到3000,以及序列长度从144扩展到5400的两组压力测试中,PMDformer相比PatchTST、iTransformer等主流模型,所需的GPU显存更少。这主要归功于PVA模块对计算复杂度的成功压缩,使得模型在处理高维多变量时序数据时更具 scalability(可扩展性)。

图3:计算效率对比。左图展示了不同变量数量下,右图展示了不同序列长度下,各模型的GPU显存占用情况。

总结与展望

PMDformer的成功揭示了一个在时序预测中长期被忽视的关键问题:数据片段中趋势与形状的耦合,会系统性损害模型对核心模式的识别能力。通过一个看似简单的均值解耦操作,配合精心设计的注意力机制,该框架在不增加模型复杂度的前提下,同步提升了预测的精度与效率。

展望未来,研究团队计划将这一框架扩展至更高维度的多变量时序建模场景,并探索其与文本、图像等多模态数据的融合应用,持续为金融、能源、交通等关键领域的智能决策提供新的技术动力。

来源:https://www.51cto.com/article/839981.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
中国人工智能数据量2026年将突破199EB 年增长率近43%

中国人工智能数据量2026年将突破199EB 年增长率近43%

预计2025年中国人工智能数据总量将达199 48EB,同比增长42 86%。推理数据量首次超越训练数据,达101 34EB,标志AI进入大规模实战阶段。同时,软件与AI生成数据将首次超过传统物联感知数据,推理算力需求预计达训练算力的三倍以上。国家数据局将重点布局低时延、高可靠算力场景,支撑智慧交通等应用。

时间:2026-05-20 16:40
微软或为AI供电放弃清洁能源目标惹争议

微软或为AI供电放弃清洁能源目标惹争议

微软可能搁置2030年清洁电力承诺,以应对AI数据中心扩张带来的巨大电力需求。该目标要求实时匹配零碳电力,技术挑战大。AI业务推高微软碳排放,且巨额资本支出正收紧预算,公司已考虑投资天然气发电。若放弃原目标,将标志科技行业在增长压力下环保承诺的转变。

时间:2026-05-20 16:40
苹果电脑安装OpenClaw详细图文教程

苹果电脑安装OpenClaw详细图文教程

在 macOS 系统上成功运行 OpenClaw 项目,首先需要搭建一个稳定高效的 Node js 开发环境。本指南将详细介绍从零开始的配置流程,帮助你规避常见的安装陷阱,特别是解决 Homebrew 安装时的网络问题和依赖缺失,确保后续开发顺畅无阻。 1 安装Homebrew Homebrew

时间:2026-05-20 16:39
Anthropic五年斥资两千亿美元采购谷歌云与芯片服务

Anthropic五年斥资两千亿美元采购谷歌云与芯片服务

Anthropic与谷歌云达成五年2000亿美元采购协议,占谷歌未实现收入超40%,推动其股价上涨。此举旨在巩固AI训练所需的多元化算力供应链。此前谷歌已计划投资数百亿美元,亚马逊亦承诺千亿级采购与投资。科技巨头正通过资本绑定AI核心技术,以换取长期订单与生态话语权。

时间:2026-05-20 16:39
OpenAI发布三款实时语音模型支持推理对话与实时翻译转录

OpenAI发布三款实时语音模型支持推理对话与实时翻译转录

OpenAI近期发布的三款全新实时语音模型,再次将人工智能与语音交互的融合推向新高度。GPT‑Realtime‑2、GPT‑Realtime‑Translate以及GPT‑Realtime‑Whisper的推出,并非简单迭代,而是针对不同垂直场景提供了一套专业且完整的语音AI解决方案,旨在彻底革新人

时间:2026-05-20 16:39
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程