贝叶斯神经网络等变性与数据增强技术详解
对称性在深度学习领域一直是一个引人入胜的话题。从科学计算到医学影像分析,这一概念几乎渗透到了每一个子领域。然而,一个经久不衰的争论始终存在:我们究竟应该将对称性像“紧箍咒”一样直接嵌入神经网络架构(即构建等变神经网络),还是更省事一些,让模型通过数据增强自行学习这些对称性?
理论研究者自然倾向于前一种方法——它严谨规范、便于分析。而数据增强则显得棘手得多,因为要分析它,就必须深入训练动态的复杂泥潭。不过,近期有研究指出,一个无限深的深度集成,从期望角度看,实际上是完全等变的。这条线索极具启发性。受此启发,我们系统地研究了用变分推断训练的贝叶斯神经网络(BNNs)在数据增强下的表现,特别是当变分分布属于指数族时。我们的目标是明确:要达到完全等变性,需要满足哪些条件。
沿着这一思路,我们不仅推导出了等变误差的理论界限,还顺势提出了三种对称化新方法——几何平均、投影和轨道扩展——专门用于在此场景下提升数据增强的效果。大量实验表明,其中“轨道扩展”方法在等变性和整体性能上,均显著优于其他基线方法。


1 引言
对称性在深度学习任务中正受到越来越多的关注。早期,研究者们主要聚焦于如何将对称性约束逐层嵌入网络,从而催生了大量专用的等变网络。然而,近期风向有所转变,更多人开始探索通过数据增强来“偷懒”式地学习对称性。
这种做法的优势显而易见:只要具备数据变换能力,实现起来简单直接,还能直接与那些经过千锤百炼、性能优异的现成架构搭配使用。当然,天下没有免费的午餐。由于对称性是从数据中“学”来的,而非“与生俱有”,因此它只能是近似成立。这引出了一个关键问题:如何提高从增强训练中获得的对称性“质量”?这需要新的方法来解决。
反过来看,显式的逐层等变网络在理论分析上非常顺手,而数据增强则复杂得多,因为任何分析都必须考虑训练动态。不过,一个关键发现是:如果对初始化过程取期望,数据增强实际上可以带来完全等变性。要近似计算这个期望值,一个成本高昂但直接的方法是训练一个深度集成。
我们这篇工作的核心目标是:寻找一种更经济的途径来实现这种“期望中的等变性”。具体来说,我们在增强后的数据上,使用变分推断来训练贝叶斯神经网络。在这种设定下,从后验预测分布中采样,不仅替代了集成推理步骤,还顺便提供了贝叶斯不确定性估计。更重要的是,整个流程只需一次训练就能获得变分后验,而深度集成需要为每个集成成员单独运行训练。此外,BNN 在处理分布外数据方面以稳健著称,因此特别适合数据量不大、但数据增强最能发挥威力的场景。
简要概括我们的主要贡献:
* 我们深入分析了在增强数据上训练的 BNN,其变分分布来自指数族。结果表明,只要训练从一个不变的先验出发,在几个温和的假设下,变分分布在训练全程都能保持等变性。这相当于将 Nordenfors 等人早期针对非贝叶斯网络训练的结果,推广到了贝叶斯场景。 * 如果先验不是等变的,我们也给出了变分分布偏离等变性的理论界限,并证明了因有限采样导致的预测等变误差的界限。这些理论分析均在实验中得到了验证。 * 我们一口气介绍了三种对称化操作:几何平均、投影和轨道扩展。这些操作可以在训练期间直接使用,以改善 BNN 的等变特性。在大量图像分类实验中,我们测试了这些技术,发现轨道扩展方法在模型性能和等变性方面均超过了其他基线。2 相关工作
等变神经网络
深度神经网络的对称性问题——即不变性和等变性——已经发展成一个名为“几何深度学习”的完整子领域。最经典的构建等变网络的方式是逐层构造。这条思路源于群卷积神经网络,但如今,它已经能够处理几乎所有群所能表达的对称性。当然,还有别的方法,比如从不变量中学习、通过帧平均、基本域投影或群平均来实现。也有些研究尝试近似地强加对称性,例如所谓的“权重退火”。
数据增强与训练动态
关于数据增强对神经网络训练动态的影响,已有学者在一些简化情境下进行过探讨,例如特征平均模型和线性神经网络。在这些情况下,通常可以证明数据增强与等变性是等价的。对于完全非线性网络的研究,我们将其推广到了贝叶斯网络。至于数据增强与“硬约束”孰优孰劣,经验性研究文献很多,但更系统的探讨可参考 Gandikota 和 Gerken 等人的工作。
贝叶斯神经网络
深度学习的贝叶斯方法早已被研究,因为它能为通常像黑盒一样的神经网络提供不确定性估计。不过,要让 BNN 真正实用,还需要将变分推断整合到深度学习训练的方法论中。在强调实际应用的 BNN 综述文章中,可以找到更详细的介绍。
有趣的是,此前很少有研究深入探讨 BNN 中的对称性问题。有学者提出过一种概率上的群平均方法给 BNN,以实现数据驱动的、软的对称性约束。与我们最接近的工作是使用了某种特定的先验,然后将不同的权重共享方案(对应不同的对称性约束)结合起来。在训练过程中,网络会自行学习哪种对称性最适用于手头的数据。而我们的方法则是在增强数据上训练,使用不强制权重共享的通用先验,路径完全不同。
3 理论
让我们系统梳理一下,数据增强是如何在变分贝叶斯推断中诱发等变性的。基本思路分为三步:首先,刻画指数族在群作用下何时是封闭的;其次,展示数据增强训练如何使 ELBO(证据下界)保持不变,以及这又如何影响训练;最后,提出几种对称化机制,并分析它们的性质。
3.1 预备知识
先介绍后面要用到的数学工具。首先是指数族——它是我们理论分析的结构骨干;接着回顾变分推断;最后是形式化对称性所需的群论概念。








3.2 群作用下封闭的指数族
要让神经网络真正从增强数据中学习到等变性,一个先决条件是:其参数空间必须在群变换下是封闭的。同样,在贝叶斯框架下,我们也需将变分分布族限制为在群变换下封闭的类型。这一限制对指数族施加了一些条件。具体的证明细节,我们放在了附录 C 中。

3.3 数据增强诱导等变性



值得关注的是,定理 3.7 并不直接依赖增强数据,它只与不变的似然性有关。而根据命题 3.1,这个不变的似然性是由数据增强本身隐含的。因此,即使对称性确实存在于数据中但我们事先并不知晓,该定理也依然成立。然而,在这种情况下,要保证先验也是不变的,就比较困难了。下一个定理(证明在附录 E)会告诉我们,随着数据集增大,非不变先验的负面影响会自动消失。



3.4 变分后验的对称化






4 实验
在实验部分,我们选择了一个经典数据集:FashionMNIST,并且只考虑旋转 90° 倍数这种简单的循环群对称性。这样的设定一方面能让数据增强做得非常精确,另一方面也方便我们进行大范围的蒙特卡洛采样。整个实验过程中,我们都使用了高斯变分分布,这满足了定理 3.2 中的约束条件。在附录 J 中,我们还针对其他变分分布做了额外的消融实验。
4.1 定理验证



4.2 图像分类上的对称化
接下来,我们用真实数据,比较一下第 3.4 节中提出的几种对称化机制的实际表现。
实验设置。 我们训练了一个卷积贝叶斯神经网络:两个卷积层,分别有 32 和 64 个通道,最后加一个分类层。变分分布采用对角高斯变分族,先验为标准各向同性高斯先验。训练集是从 FashionMNIST 中随机挑选的 5000 张图像,每张图像都完整地进行了旋转增强(共 20000 个训练样本)。



我们注意到一个现象:如果对称化干预应用得较晚,所有策略的性能通常都会下降。这很容易理解,因为触发晚意味着重新初始化后的训练时间较短。不过,几何平均方法在 OSP 和 Sym.KL 这两个指标上是个例外——虽然它也呈现下降趋势,但它是从一个比其他所有方法都要好得多的起点开始下降的。
最终,轨道扩展方案交出了最好的答卷。我们推测,这是因为与简单的轨道平均相比,轨道扩展产生的参数自带额外对称性,而这种额外对称性源于基滤波器数量有限(可参考图 3 和图 5)。这些多出来的对称性似乎能带来更强的稳定性。当然,这背后更深层的原因还有待未来继续探索。

5 结论与局限性

最后,必须坦诚地讨论我们工作的局限性。为了将问题阐述清楚,我们做了一些假设,这也为结果的适用范围划定了边界。例如,我们主要聚焦于指数族。虽然它覆盖面很广,但像高斯混合模型这样一些著名分布并不属于指数族。此外,我们的分析和实验都限制在有限群上,这样才能直接定义有限增强数据集。要推广到连续群,就需要用从对称群中采样的方法来实现数据增强。虽然这超出了目前这篇工作的范围,但我个人认为,沿着这个方向拓展我们的结果并不存在概念上的障碍(附录 A 中也做了讨论)。最后一个局限性是相容性假设(2)。考虑到中间表示的选择具有很大灵活性,这一限制总体上还算温和。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
企业组织级AI赋能具体实施方法
前段时间收到一位读者的留言,希望聊聊企业级、组织级的AI赋能究竟该怎么落地。巧的是,前几天刚看到一份咨询调研机构的数据:对近一两年所有企业级AI赋能项目的统计显示,超过90%的甲方企业认为,AI赋能在核心业务价值链上没有发挥任何实质性作用。除了AI辅助办公、企业智能知识库这类边缘应用起到了一些辅助效
Scrapy与Redis分布式架构的日本电商多平台数据聚合系统
从事日本电商数据聚合工作时,最大的难点在于要同时应对雅虎拍卖、煤炉(Mercari)、乐天和亚马逊日本站等截然不同的平台。以往使用单机爬虫,经常出现运行中崩溃的情况——单点故障、带宽利用率不足、数据存储混乱,这三大痛点令人困扰。 本文分享一套基于Scrapy + Redis的分布式爬虫方案,专门解决
详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置
PuTTY(简称PT)是一款轻量级开源SSH Telnet客户端,凭借简洁高效的特性,多年来始终是系统管理员与开发者进行远程连接的首选利器。本教程将详细介绍PuTTY 0 81版本的完整安装过程,并指导您自定义安装路径,以便更灵活地管理SSH远程连接工具。 安装准备 首先需要说明的是,整个安装流
在线教育系统必备功能:直播课堂与题库考试架构
很多人一想到做在线教育系统,第一反应往往是先把直播间和课程播放器搭起来,觉得“能看课”就万事大吉了。真到落地那天才发现,系统能不能顺滑跑起来,关键全藏在那些细节里——课程怎么组织、学习进度怎么记、考试怎么处理、后台怎么管得住。前端看起来就几个页面,后端其实是一整条业务链路。不管你是要做在线教育APP
ZStack源码级AI诊断套件让故障排查秒出答案
一次故障排查,到底要花多少时间? 运维人员处理私有云、虚拟化平台的问题,流程大致都是这样:先翻日志看现象,再去文档里找对应机制,然后搜社区有没有类似案例,最后综合判断给出答复。简单问题半小时,复杂问题可能要跨天——而这些时间里,大部分精力耗在了“找信息”而不是“做决策”上。 类似的问题,也许每天都在
- 日榜
- 周榜
- 月榜
相关攻略
2026-06-30 16:16
2026-06-30 16:16
2026-06-30 16:16
2026-06-30 16:15
2026-06-30 16:15
2026-06-30 16:15
2026-06-30 16:15
2026-06-30 16:14
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

