当前位置: 首页
AI资讯
多变量神经缩放定律大一统新突破:Mila联手DeepMind提出UNSL

多变量神经缩放定律大一统新突破:Mila联手DeepMind提出UNSL

热心网友 时间:2026-05-29
转载

大模型规模化的研究,过去大家关注的是参数量、数据量和loss之间的简单关系——也就是经典的scaling law。但真到了训练环节,事情远没有这么直白。模型性能不止受参数量和数据量影响,训练步数、处理token数、数据重用次数、batch size、学习率、初始化尺度,甚至推理时的计算量,每一个变量都可能拖后腿。

更棘手的是,这些变量之间不是简单的加法关系。某个变量在特定区间可能成为瓶颈,也可能让性能曲线出现阶段性拐点,甚至带来非单调变化。比如训练数据太少,或者训练轮数超过某个阈值,过拟合就来了;学习率或初始化权重标准差太大,反过来也会损害性能。这些复杂情况,传统的缩放定律很难统一描述。

最近,来自蒙特利尔大学Mila和Google DeepMind的研究者提出了一种全新的函数形式,叫统一神经缩放定律(Unified Neural Scaling Law,简称UNSL)。它的核心主张很明确:神经网络的缩放行为不应该只用“参数量—数据量—loss”这样的二维或三维公式来刻画,而应该用一个能同时处理多变量、阶段性转折、性能瓶颈、过拟合和超参数反向作用的统一函数形式。

论文一作Ethan Caballero用一段视频展示了UNSL如何准确建模和外推人工神经网络在多个变量同时变化时的缩放行为。

UNSL的函数形式

UNSL的完整架构由多个分层函数嵌套而成。它在多维对数空间中将性能建模为一组平滑连接的超平面:

其中Q定义如下:

R定义如下:

K为多变量断裂神经缩放定律(Multivariate Broken Neural Scaling Law,MBNSL):

整体上可以这样理解:UNSL不是简单地把参数量、数据量和训练步数塞进一个幂律公式,而是采用了一套分层结构。底层的K是多变量broken scaling law,描述log-log空间中由多个平滑连接超平面构成的缩放曲面;其中的hyperbreak对应性能曲面中的阶段性转折。再往上一层,R将整体缩放行为拆成非瓶颈组件和瓶颈组件,分别描述多变量共同作用下的整体趋势,以及某一单独变量限制最终性能的情况。瓶颈组件意味着,当其他变量都足够好时,某一个变量仍可能成为短板——比如模型够大、训练够久,但数据量不足,数据量就是瓶颈;或者数据足够多,但模型太小,参数量就成了瓶颈。Q则进一步引入学习率、初始化尺度等超参数可能带来的反向作用。最外层公式再加入不可约性能极限、评价指标导致的坏表现极限,以及训练超过一定epoch后可能出现的过拟合项。

下图是UNSL的示意图,包含两个输入维度x₁和x₂;中间图和右侧图分别展示了它在各个输入维度上的投影。这个例子中,UNSL包含3个hyperbreak,也就是图中用更亮的虚线标出的橙色、黄色和绿色转折结构。Hyperbreak可以理解为缩放定律中的“阶段转折”——比如一开始增加数据带来明显收益,过了某个区间收益下降,这个转折就是一种break;多变量情况下,它不再是一个点,而是高维空间里的转折面。其中绿色hyperbreak由非瓶颈组件产生,橙色hyperbreak由x₁瓶颈组件产生,黄色hyperbreak由x₂瓶颈组件产生。

实验结果

实验部分,研究者对比了几类函数形式。第一类是已有的缩放定律形式,包括CF和DC。CF接近Kaplan、Chinchilla一类常见形式,主要描述参数量、训练数据量或训练token数与loss之间的关系。DC来自Muennighoff等人的三变量函数形式,考虑参数量、训练token数和训练数据集大小。第二类是作者设计的消融版本:A1、A2、A3,可以理解为UNSL的逐步简化版。A1去掉了additive symmetry,A2加入了性能下限项,A3进一步加入部分反向作用结构;完整UNSL包含全部additive symmetry、瓶颈组件、非瓶颈组件、过拟合项和超参数反向作用项。

研究者做了视觉和语言两大类实验。在视觉任务中,评估了下游少样本图像分类,包括Birds 200、Cars 196和ImageNet。模型包括ViT、MLP-Mixer和BiT,在JFT-300M子集上预训练。变量包括训练数据集大小、训练步数,以及三变量设置中的模型参数量。结果显示,在下游图像识别任务中,UNSL在60.87%的任务上取得最好的外推表现,下一个最好的A3是21.74%。

在语言任务中,评估了上游和下游语言表现,变量包括模型参数量、处理token数、训练数据token数等。下游任务包括LAMBADA和CSR(HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ等常识推理任务的零样本平均错误率)。结果显示,在语言任务中,UNSL在88.89%的任务上外推最好,下一个最好的A2是11.11%。

细化来看,视觉实验分为二变量和三变量两类。二变量设置中同时变化训练数据集大小和训练步数,三变量设置中同时变化训练数据集大小、训练步数和模型参数量。在三变量视觉实验中,UNSL的优势非常直接:以Birds和ImageNet为例,UNSL都取得最低RMSLE。尤其和DC相比,误差下降非常明显,说明只靠传统三变量形式不足以描述视觉模型在参数量、训练数据和训练步数同时变化时的外推趋势。

语言实验同时覆盖上游语言建模表现和下游任务表现。三变量语言实验使用Muennighoff等人的缩放行为数据,三个同时变化的维度是模型参数量、处理过的token数、训练数据集中的token数。二变量语言实验则关注模型参数量与训练步数/处理token数的关系。在三变量语言实验中,UNSL的RMSLE明显低于A3、A2、A1和DC——外推误差大约只有DC的八分之一左右。

二变量语言实验也体现了类似趋势。在下表5中,UNSL在大多数任务上取得最低误差。

除了主文中的视觉和语言任务,论文附录还给出了更多场景,试图说明UNSL的适用范围更广。它可以外推强化学习中的多变量缩放行为,可以处理宽度和深度同时变化的缩放,还可以把batch size作为输入变量;另外,UNSL还被用于学习率、初始化权重标准差和训练步数同时变化的三变量缩放行为。

这一系列实验结果表明,UNSL的优势不在于简单拟合历史数据,而在于它能在多变量同时变化的情况下,更稳定地预测模型性能随规模扩展的走势。

来源:https://www.bestblogs.dev/article/89ed00e5?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Hermes Agent企业工作流优化方法

Hermes Agent企业工作流优化方法

HermesAgent优化企业工作流需五步:配置跨平台消息网关统一任务入口,编写SOUL md规则文件设定行为边界,部署定时自动化任务实现无人值守,启用Repomix融合多源知识构建语义图谱,启动隔离式子智能体并行处理工单,提升自动化调度、跨系统协同与长期记忆复用能力。

时间:2026-05-29 06:53
Vidu如何生成微缩模型风格创意视频详细教程

Vidu如何生成微缩模型风格创意视频详细教程

生成微缩模型风格视频需多图参考、光学虚化特征、结构化提示词和胶片模拟协同。俯拍视频提供空间骨架,移轴样张引导虚化,提示词锁定微缩语义,VELVIA增强色彩块面,分段校准清晰带位置模拟光学倾角变化。

时间:2026-05-29 06:50
豆包AI搭建自动根据天气节假日调整推送策略的运营Bot

豆包AI搭建自动根据天气节假日调整推送策略的运营Bot

通过构建数据感知、策略路由、内容生成三层动态响应链,在豆包平台启用天气与节假日插件,配置嵌套if-else或变量注入路由逻辑,绑定差异化内容模板并设定条件触发,实现运营Bot自动识别天气突变与法定节假日,切换推送话术与内容策略。

时间:2026-05-29 06:49
通义万象制作写实宝石钻石光泽折射特写图技巧

通义万象制作写实宝石钻石光泽折射特写图技巧

生成写实宝石钻石特写图,提示词需按主体、材质、光学、构图、风格顺序组织,必须嵌入85mm微距镜头和f 2 8。开启高保真渲染,风格强度设为72-78,细节丰富度选“极致”。提示词尾部添加折射逻辑约束和纯黑背景指令,避免镜像反光和杂散光干扰。

时间:2026-05-29 06:48
谷歌发布PaLM2语言模型训练令牌达3.6万亿

谷歌发布PaLM2语言模型训练令牌达3.6万亿

谷歌正式发布PaLM2大语言模型,其训练数据规模高达3 6万亿令牌,是初代PaLM的4 6倍。尽管参数量缩减至3400亿,但凭借计算机优化扩张技术,其模型性能更强,推理速度更快,成本效率更高,在多项基准测试中表现优异。

时间:2026-05-29 06:47
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程