北大林宙辰团队ICLR 2026研究：基于最优传输的时序预测模型训练方法

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

北大林宙辰团队ICLR 2026研究：基于最优传输的时序预测模型训练方法

热心网友时间：2026-05-16

转载

在时间序列预测领域，一个长期存在的现象引人深思：模型架构本身，从经典的循环神经网络到前沿的Transformer，再到各类频域与混合模型，其演进可谓日新月异。然而，绝大多数模型的训练，却始终依赖于同一类损失函数——以均方误差（MSE）为代表的逐点误差度量。

这导致了方法论上的隐性停滞：研究焦点持续向提升模型表达能力倾斜，而对损失函数背后所隐含的统计前提与根本假设，却缺乏系统性的审视与革新。

那么，逐点误差损失的核心假设究竟是什么？它默认，在给定历史序列的条件下，未来各个时间步的预测目标是彼此独立的。但关键在于，这一假设与时间序列数据真实的生成机制存在根本性矛盾。现实世界的时间序列由复杂的随机过程演化而来，前后时刻之间通常存在显著的自相关性与依赖关系。将多步预测强行拆解为一组独立的回归任务，无疑为损失函数植入了结构性偏差，使得模型难以有效捕捉标签序列的整体趋势、周期模式、内在相关性以及复杂的条件依赖。

针对这一核心矛盾，北京大学林宙辰教授团队进行了深度剖析，并创新性地提出了DistDF：一种通过联合分布对齐来训练预测模型的新型损失函数。这项工作的价值，不仅在于为时间序列预测提供了更优的工具，更在于对序列建模中“我们究竟应该优化什么”这个长期被默认的命题，给出了一个颠覆性的答案。

当独立性假设被实验数据证伪

当前，时间序列预测的主流方法普遍采用均方误差（MSE）作为损失函数：

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

这个简洁公式的背后，隐含着一个强烈的统计学假设：给定历史序列后，未来各时间点的观测值彼此独立。然而，真实世界的时间序列标签通常存在显著的自相关性。因此，MSE所依赖的独立性假设与数据的真实生成过程相悖，这直接导致了它作为一种损失函数是存在偏差的（具体论证见定理1）。

[定理1] 考虑单变量标签序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$，其条件自相关矩阵为$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$，则标签序列的实用负对数似然可表示为：$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。显然，仅当$$\mathbf{\Sigma}_\mathbf{x}$$是单位阵，即标签自相关不存在时，才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。

研究团队通过详尽的实证分析验证了这一矛盾：即使在给定历史序列的条件下，标签序列依然呈现出显著的条件相关结构，从而在数据层面证伪了独立性假设。实验进一步揭示，即便对标签进行频域变换或主成分分析等预处理，变换后的序列中依然存在残余相关性。这意味着，即使在变换后的特征空间里应用MSE，其固有的结构性偏差依然无法根除。

DistDF：基于分布对齐的序列预测损失函数

为了从根本上规避传统方法的独立性假设，DistDF的核心思想是直接对齐模型预测序列的条件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$与真实标签序列的条件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直观上，这可以通过最小化两个条件分布之间的距离$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$来实现。

然而，直接操作会遇到严峻的样本稀缺挑战。对于一段特定的历史序列$$\mathbf{x}$$，数据集中通常只有一个对应的真实标签序列$$\mathbf{y}$$，模型也只会产生一个预测序列$$\hat{\mathbf{y}}$$。这种“单样本”场景使得直接估计条件分布距离在统计上极不稳定且不可靠。

如何破解这一难题？团队巧妙地运用了概率论中的基本恒等式：$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。由于边缘分布$$\mathbb{P}(\mathbf{x})$$是模型与数据共享的，如果联合分布实现了对齐，那么条件分布自然也就对齐了。基于此洞见，他们将棘手的条件分布匹配问题，转化为了更可行、更稳定的联合分布匹配问题。

进一步结合最优传输理论，论文证明了联合分布的Wasserstein距离构成了条件分布Wasserstein距离期望的上界：

$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$

因此，通过最小化历史-预测联合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$与历史-标签联合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之间的Wasserstein距离，就能有效驱动条件分布的对齐，从而实现预测模型的无偏训练。更重要的是，这一转换允许我们利用整个数据集的样本批量估计联合分布距离，显著提升了估计的统计效能与可靠性。

DistDF的具体实现流程清晰而高效：

首先，构造联合序列：$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$；

接着，计算这两个联合序列之间的Wasserstein距离：$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$，

最后，与传统的MSE损失进行加权融合，形成最终训练目标：$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$

作为一种与模型架构无关的损失函数，DistDF可以灵活适配于各类时间序列预测模型。

大量实验一致验证其性能优势

论文首先将DistDF与现有旨在削弱标签相关性的损失函数（如FreDF和Time-o1）进行了全面对比。结果表明，这些方法虽然通过标签变换减少了似然估计的偏差并提升了性能，但残差偏差仍然存在，因此性能仍有提升空间。而DistDF通过直接最小化条件分布之间的距离，实现了预测模型的无偏训练，从而在多个基准数据集上取得了最佳的预测精度。

其次，通过系统的消融实验，团队验证了分布对齐中两个关键统计矩的作用：分别考察仅对齐一阶矩（均值）、仅对齐二阶矩（协方差）以及同时对齐二者的情形。结果显示，两者单独对齐时均能带来性能提升，而二者同时对齐时效果最为显著，证明了完整分布对齐的必要性。

此外，论文还对模型输出的预测序列进行了可视化分析。结果表明，采用DistDF训练的模型能够更敏锐地捕捉并跟随序列中的突发变化与转折点，使得预测序列在整体形态、波动模式上更加贴近真实数据。这进一步说明，DistDF的作用不仅在于降低数值误差，更在于引导模型学习到了真实未来时间序列的整体概率分布形态。

最后，论文广泛验证了DistDF与不同预测模型的兼容性与普适性。实验结果显示，无论基础模型是简单的线性模型还是复杂的深度网络（如Transformer、Informer等），引入DistDF作为训练策略后，模型的预测性能几乎都能获得一致且显著的提升。这一结果强有力地表明，DistDF的作用并非弥补特定模型结构的缺陷，而是提供了一种更优的、通用的训练范式与优化信号。

「多任务学习」亟需分布对齐视角

从更广阔的机器学习视角看，这项研究深刻地重新审视了多任务学习场景中的损失函数设计。研究团队强调，多任务学习的核心目标不应局限于对T个独立的任务标签进行逐点建模，而应转向对一个在任务维度上具有内在相关结构的随机过程进行整体建模。

在这一全新视角下，传统损失函数（如MSE）所隐含的“给定输入条件下各任务标签相互独立”的假设，实际上将一个高维、相关的随机过程建模任务，错误地简化并退化为一组彼此独立的标量回归任务。正是由于忽略了输出标签之间的内生相关性结构，这些传统损失函数才引入了系统性的偏差。

DistDF通过将预测序列与真实标签序列建模为完整的概率分布，实现了对任务维度上相关结构的整体性建模。优化基于分布对齐的损失函数，使得模型能够显式地学习并复现标签序列的整体形态、协方差结构以及复杂的条件依赖关系。

更进一步，这项研究揭示的问题具有高度的普适性。只要机器学习任务的输出构成具有显著相关性的序列——无论是语音识别中的梅尔频谱、图像生成中的像素序列、自然语言处理中的文本，还是用户行为分析中的轨迹序列——如果仍然沿用基于独立性假设的损失函数（如MSE或MAE），就必然会引入结构性偏差，限制模型性能上限。因此，DistDF所倡导的联合分布对齐思想，不仅为时间序列预测指明了新方向，也同样为语音合成、视频预测、轨迹生成等序列输出任务提供了深刻的启示。它并非针对时间序列的特定技巧，而是为多任务学习与序列建模问题提供了一种更为通用、更为本质的损失函数构造新范式。

本工作得到了北京市科学技术委员会、中关村科技园区管理委员会的大力支持。

来源:https://www.leiphone.com/category/ai/5oydINXpChEjEWjL.html

上一篇：商汤科技SenseCore获工信部软件供应链安全优秀级认证

下一篇：擎羽科技获宇树天使领投融资专注仿生柔性机器人研发