里奇流引导神经扩散缓解超图过平滑问题

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

里奇流引导神经扩散缓解超图过平滑问题

热心网友时间：2026-05-30

转载

超图神经网络（HGNNs）在建模复杂高阶关系方面展现出卓越的性能，这一点已在学术界和工业界得到广泛证实。然而，随着网络层数加深，一个严峻的挑战逐渐显现——过平滑（over-smoothing）。通俗而言，节点特征会因层数增加而趋于一致，导致模型性能显著下降。现有方法大多从算子层面入手进行改进，但普遍缺乏严谨的理论保障。

本研究带来了一种全新的几何视角。受微分几何中里奇流理论的启发，研究者从理论上论证了将离散里奇流引入超图结构能够有效调控节点特征的演化过程，从而缓解过平滑。基于此理论洞见，他们提出了里奇流引导的超图神经扩散框架（RFHND），这是一种创新的消息传递范式。

摘要

超图神经网络（HGNNs）在建模复杂高阶关系方面已展现出强大的能力。然而，现有HGNNs随着层数加深常面临过平滑问题，且对节点间消息传递缺乏有效控制。受微分几何中里奇流理论的启发，我们从理论上证明并验证了将离散里奇流引入超图结构能够有效调控节点特征演化，从而缓解过平滑。基于此发现，我们提出里奇流引导的超图神经扩散（RFHND），这是一种由离散里奇流驱动的、用于超图的新型消息传递范式。具体而言，RFHND基于一个描述超图上节点特征连续演化的偏微分方程（PDE）系统，在几何层面自适应地调节信息扩散速率，以防止特征同质化并生成高质量的节点表示。实验结果表明，RFHND在多个基准数据集上显著超越现有方法，展现出强大的鲁棒性，同时有效减轻了过平滑问题。

索引词——超图神经网络，过平滑，里奇流，微分方程

I. 引言

超图近年来备受关注。与传统图结构仅能表达节点间的成对关系不同，超图通过超边可同时连接多个节点，从而自然捕获高阶关系。这种能力使其在社交网络分析、推荐系统和生物网络建模等场景中展现出独特的表达力。一大批超图神经网络方法随之涌现，在节点分类、链接预测和表示学习等任务上取得了显著进展。

但问题也随之而来。随着网络层数加深，过平滑成为绕不开的障碍——节点特征趋于收敛，彼此差异逐渐缩小，模型性能急剧下滑。目前的缓解策略大致可分为两类：一类通过残差连接等架构层面的改造来保留初始特征；另一类则优化聚合过程，例如利用注意力机制对节点和超边进行选择性加权。但坦率地说，这些方法大多是算子层面的修补，缺乏严格的理论支撑，在复杂实际场景中往往效果不尽如人意。

受一篇将几何曲率与过平滑建立直接联系的工作启发，本文研究者将超图神经网络中的特征收敛视为一种无约束的几何演化过程——类似于热扩散。这一视角催生了一个关键想法：能否从微分几何中寻找一种机制，从内在层面控制这种扩散动力学？答案就是里奇流。里奇流用于描述度量张量如何根据局部曲率进行演化，而其离散化形式——离散里奇流——已在图任务上被证明有效。但它在超图上的潜力，一直无人问津。

基于上述理论见解，研究者提出了里奇流引导的超图神经扩散（RFHND）。这是一个基于偏微分方程的方法，将节点特征演化建模为连续的动力学过程，根据局部曲率自适应地调节信息扩散。核心思路通过图1得到直观展示。具体而言，根据超边内节点间的特征相似度为超边分配权重，实现自适应的更新流——既能高效融合特征，又能保留节点间的差异性。

主要贡献可归纳为三点：

• 理论基础：将离散里奇流引入超图学习领域，理论上证明它能通过局部曲率自适应控制特征扩散，从而缓解过平滑。
• 方法贡献：提出RFHND，将传统的消息传递转化为自适应的、曲率引导的扩散过程，有效防止特征同质化。
• 实验验证：在多个超图数据集上，RFHND实现了更优的节点分类准确率，同时展现出更高的稳定性和鲁棒性，并显著减少了过平滑现象。

II. 相关工作

本部分从两个关键维度展开回顾：超图神经网络及其过平滑问题。

A. 超图神经网络

超图神经网络实际上是图神经网络的一种强力泛化，专门用于捕获超越成对连接的复杂高阶关系。整个领域的发展可追溯至HGNN模型的开创性工作——它利用超图上的谱卷积框架，实现了同一超边内节点信息的聚合。

随后，一系列基于消息传递的模型被陆续提出，包括HNHN、HyperGCN、HyperSAGE和UniGNN等，它们扩展了聚合与传播机制以适应异构和加权的超边，在节点分类等任务上带来了显著改进。与此同时，AllDeepSets和AllSetTransformer这类架构则完全放弃了谱假设，转而采用超边上的置换不变集函数，促进了更灵活的、集合层面的推理。

最近的进展包括更复杂的建模视角。HDS使用常微分方程来提高学习过程的稳定性和可控性；KHGNN则通过嵌套卷积模块从节点、超边及其之间的中间路径提取特征，以实现长程依赖的捕获。

B. 超图神经网络中的过平滑问题

深层超图网络中的节点表示容易趋于一致，这会严重拉低模型性能。现有的应对策略同样分为两大阵营。

架构修改。 这类工作聚焦于改变网络架构以保留来自早期层的信息。借鉴残差连接在CNN和GNN中的成功经验，UniGCNII和Deep-HGCN引入了跳跃连接，使得构建更深且更有效的超图神经网络成为可能。FrameHGNN则引入了一种基于帧元的超图卷积框架，将低通/高通滤波器与残差和恒等映射等技术相结合，在深层网络中保持判别性信号。

优化聚合算子。 这个范式试图让特征聚合过程更具区分度。不同于均匀聚合，注意力机制被引入来为超边内的节点或连接到节点的不同超边分配不同的权重。超图注意力网络可以学习节点和超边的动态权重，有效缓解无差别特征混合的问题。ED-HNN则提出采用等变算子在节点间分配差异化的消息，有助于保持特征多样性。

现有方法的局限性。 坦率而言，现有方法虽然在一定程度上缓解了过平滑，但大多数仍依赖局部框架的修补，缺乏严格的理论保证，在复杂场景下难免力不从心。相比之下，引入离散里奇流来全局调节节点特征的演化，才是更有前景的方向。

III. 预备知识

A. 符号表示

B. 加权超图上的超边曲率

C. 狄利克雷能量

超图的狄利克雷能量是刻画节点间特征平滑性的重要指标。公式（1）明确表明，相邻节点特征之间越相似，能量值就越接近0——这正是过平滑问题的直接反映。

D. 离散里奇流 (DRF)

里奇流最初由Hamilton在微分几何中引入，它根据偏微分方程来演化一个黎曼度量：

IV. 在超图上应用DRF

A. 狄利克雷能量界

通过在超图上应用属性离散里奇流，可以证明：当节点特征演化遵循里奇流时，系统的能量值保持有界。这意味着该方法能够有效防止过平滑，在传播过程中保持受控的特征差异化。

定理1为解决过平滑问题提供了关键的理论支持。它给出的严格正下界确保了在整个特征演化过程中，节点间的差异不会完全消失——这意味着有意义的特征区分被保留下来，节点表示不会走向过度同化。

B. 收敛性分析

在证明该方法能有效防止过平滑之后，我们进一步分析它的收敛性：

定理2说明了离散里奇流具有指数收敛的性质。无论系统初始状态如何，超边曲率都能够迅速趋近于零。这为方法的效率和稳定性提供了理论保障。

V. 方法论

A. 里奇流引导的超图特征扩散

正如前一节所建立的，将属性离散里奇流应用于超图带来了几个关键好处：该过程在促进高质量、非平滑节点表示学习的同时，驱动超边曲率趋向均匀，而且收敛性也有理论保证。受这些优势的启发，我们设计了一种新的超图特征扩散架构。

利用链式法则展开公式（5），得到：

公式（17）定义了单个超边对节点的局部影响，而节点的表示则是基于其整个邻域进行更新的。通过遍历与节点关联的所有超边并聚合相应的信息，将这个公式从单个超边推广到整个超图：

B. 里奇流引导的超图神经扩散

这个理论结果也为架构设计提供了坚实的基础——它保证了通过神经网络（比如MLP）对曲率引导的聚合权重进行参数化是一种有效的方法。在实际实现中，通过数值求解微分方程来驱动特征更新。为了确保求解过程的鲁棒性，还进一步推导了显式欧拉法的稳定性条件：

VI. 实验

A. 基准数据集上的结果

数据集。 为充分验证RFHND的性能，评估覆盖了代表学术场景和真实场景的多样化基准数据集。学术场景使用了五个成熟的超图基准数据集：Cora、Citeseer、Pubmed、Cora-CA和DBLP-CA。对于这些数据集，节点特征源自词袋表示，标签对应论文的主题类别。真实世界数据集包括Zoo、ModelNet40、NTU2012、Walmart、House和Senate。超图结构根据已有工作构建，对缺乏固有节点特征的数据集用高斯随机向量初始化。训练集、验证集和测试集采用50%/25%/25%的划分，最终报告的性能是20次独立试验的聚合结果。

基线方法。 对比的方法包括HGNN、HCHA、HyperGCN、HNHN、UniGCNII、HAN、AllSetTransformer、AllDeepSets、ED-HNN、HyperGINE、KHGNN和FrameHGNN——涵盖了从谱方法到注意力机制、从残差连接到等变扩散算子的主要技术路线。

实验设置。 采用Adam优化器，超参数（学习率、权重衰减、丢弃率、隐藏维度、训练轮数）根据验证集性能在每个数据集上单独调整。使用torchdiffeq实现微分方程求解器。

结果。 从表II和表III可以看到，RFHND模型的表现堪称亮眼。通过计算所有比较方法的平均排名，RFHND在学术数据集和真实世界数据集上都保持了第一名。具体而言，它在五个学术基准数据集中的三个上达到了最先进水平，在另一个数据集上取得了第二名的好成绩。在六个真实世界数据集上，RFHND更是全面超越了所有对比方法。这些结果在不同类型的数据集上形成了一致的证据链。

B. 合成异质超图数据集上的结果

表IV的结果显示，RFHND在所有评估数据集上都获得了更优的性能。尤其在异配设置下（当特定条件成立时），模型表现出的鲁棒性和泛化能力提升更为显著。

C. 消融实验

为了评估每个子模块的贡献，进行了消融实验。三种变体分别被测试：移除余弦系数（w/o COS）、将用于建模边曲率的HyperNet替换为随机数值（w/o HyperNet）、同时移除两者（w/o C and H）。从表V可以清楚看到，所有变体都出现了性能下降。尤其值得注意的是，联合移除COS和HyperNet模块导致性能下降更为显著——这说明两个模块之间的协调配合至关重要。

D. 过平滑分析

模型深度如何影响超图神经网络的性能？大多数HGNN在本质上是浅层的，这限制了它们从高阶邻居中捕捉信息的能力。但单纯增加深度又会引发过平滑。为了探究这个问题，在Cora、Cora-CA和Citeseer数据集上测试了2到40层的设置，同时记录了不同层配置下的狄利克雷能量。

从图2可以提炼出两个关键发现：RFHND在所有测试深度上都提供了更稳定的性能，而且随着层数增加，其性能表现出显著的稳定性。对比方法随着深度增加经历了能量的快速下降，而RFHND的狄利克雷能量轨迹始终保持稳定——这与理论分析完全吻合。

E. 鲁棒性分析

为了评估RFHND在噪声输入条件下的表现，进行了特征级和结构级的扰动实验。图3的结果一目了然：在所有噪声设置下，RFHND始终优于基线方法。在特征级扰动下，RFHND在Citeseer数据集上表现出强劲的鲁棒性，对高斯噪声、均匀噪声和基于掩码的扰动都保持了稳定的性能。在结构噪声分析中，RFHND在Cora-CA数据集上的优势同样明显，在所有检查的噪声水平下都表现更好——虽然所有模型的准确率都随噪声率增长而下降，但RFHND仅显示出微小的下降。

F. 参数分析

选择了Zoo、NTU2012和ModelNet40三个代表性数据集进行分析。如图4所示，RFHND在不同的隐藏层配置下保持相对稳定。但当步长变得过大时，模型性能开始恶化——这说明过大的步长会导致不稳定的特征传播，削弱模型捕捉细粒度关系模式的能力。

G. 特征可视化

从图5可以清晰看到，随着时间推进，节点嵌入逐渐形成了更清晰、更紧凑的簇。模型逐渐增强了区分不同类别节点的能力，在整个积分过程中，表示演化成了更具可分性和判别性的结构。

VII. 结论

这项工作通过将微分几何中的里奇流推广至超图领域，有效缓解了超图神经网络中过平滑这一关键挑战。RFHND利用离散里奇流来自适应地调节信息传播，将节点特征演化构建为基于连续偏微分方程的系统，在几何层面上控制了扩散速率，从而防止了特征同质化。同时，严格的理论分析验证了框架的收敛性质与逼近能力。在多个基准数据集上的广泛实验表明，RFHND显著优于现有最先进的方法，并展现出强大的鲁棒性。总体而言，这项工作为应对过平滑问题提供了一个颇具前景的几何视角，也丰富了高阶表示学习相关的理论框架。

来源:https://cloud.tencent.com.cn/developer/article/2676554

上一篇：小微企业阿里云最佳实践第四期：云监控与日志服务

下一篇：中秋节放假通知模板正式温暖关怀版