当前位置: 首页
AI
MIT全新RandOpt算法,破解大模型训练久耗痛点

MIT全新RandOpt算法,破解大模型训练久耗痛点

热心网友 时间:2026-03-16
转载

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

MIT新论文向大家都在头疼的“调参”开炮了!

为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。

然而现在,一对来自MIT的师生用一篇新论文告诉大家:

不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多。



在这篇论文诞生前,我们熟悉的论调是:专家模型是训练出来的。

甭管是靠梯度下降还是强化学习,都得一步一个脚印慢慢优化参数。

但这篇论文却揭示,专家模型早就存在,只是藏在权重空间里,预训练模型的真实形态be like:

专家模型像灌木一样密密麻麻长在周围。(即论文提到的“Neural Thickets(神经丛林)”现象)



△注:以上为AI生成,非论文内容

就是说,只要在预训练权重附近稍微扰动一下参数,就可能“碰到”一个新的任务专家。

基于此,作者进一步提出了一种非常简单的方法RandOpt:

只需向大语言模型添加高斯噪声(单步操作——无需迭代、无需学习率、无需梯度),然后将它们集成起来,就能在数学推理、编程、写作和化学任务上取得与标准GRPO/PPO相当甚至更优的性能。



而且作者发现,模型越大,效果越好。

预训练模型周围藏着“神经丛林”

简单来说,论文给出了一个反直觉的结论——

预训练模型周围早就存在大量“专家模型”。

在权重空间里,能解决不同任务的模型并不是零散分布的,而是密集地“长”在预训练权重附近。

所以理论上,并不一定需要复杂的训练过程,只要在这片区域里多试几次,就有机会找到表现不错的任务专家。

听到这里,估计很多人的反应是:啊这,难道这不就是靠猜、靠试吗?

没错,还真就是靠猜。

一直以来,随机猜测都被认为是不够靠谱的机器学习算法,比如随机猜出ChatGPT的参数向量,概率几乎为零。

但论文发现,到了预训练模型这里情况就变了——

模型权重周围,能提升任务表现的参数扰动变得很密集,所以随机猜测也能找到有效改进方案。



在论文中,作者对预训练的Qwen2.5模型(0.5B~32B)施加了1000次随机权重扰动,并通过随机投影将其投影到二维平面。

结果发现,模型越大,周围“高精度区域”越密集;小模型扰动后大多性能下降(蓝色区域),而大模型周围随处可见性能提升的“专家”(红色区域)。

换言之,模型越大,这种扰动效果越明显、越起作用。



而且需要注意,这些随机扰动最后带来的不是“全能选手”,而是“偏科战神”。

实验显示,没有任何一个随机改动能让模型在所有任务上都实现提升。例如,某一个改动能让模型数学算得更准,但写代码会变菜;另一个改动能让模型化学题做得好,但写故事不行。

并且同样的,模型越大,这种偏科越明显。



至于模型为啥会出现这种“周围偷偷藏一堆高手”的现象,论文也通过一个极简实验给出了初步解释。

他们选用了结构最简单、最容易看懂的1D信号自回归模型,让其学习预测一段时间序列信号的下一个数值。

结果出现了三种情况:

无预训练:不论怎么添加扰动,模型周围都完全找不到可以提升性能的改动,随机猜测无意义;单一任务预训练:模型只能把经过预训练的任务做到极致,参数周围不会冒出其他优质改动;多任务混合预训练:模型参数周围瞬间布满能提升性能的扰动,随便加个小改动,就能解锁擅长某类信号预测的专项能力,成功复刻“神经丛林”的密集状态。



由此论文得出核心结论,“神经丛林”现象的诞生,关键就在于大模型的海量多任务预训练。

换言之,正因为底子够足,所以周围很容易找到可以随机扰动的“专家”。

启发了RandOpt算法

而上述研究,也启发论文作者提出了一种新的算法,RandOpt。

RandOpt的运行机制可以分成简单两步:随机找高手+组队投票。

“随机找高手”就和前面提到的类似,给预训练模型的参数随机做N次扰动,然后就会得到N个“新版本模型”。

再用少量验证数据简单测一测这些模型,我们就能找出其中表现最好的K个。

拿到这K个模型后,接下来进入实战推理阶段——

让这K个“高手”各自回答问题,最后按“少数服从多数”的原则决定最终结果。

整个过程有两个值得注意的点:

一是在添加扰动sigmas(即噪声强度)时,RandOpt会尝试不同强度的噪声(比如小扰动、中扰动、大扰动),以确保能找到各种类型的专家。

二是这N个模型可以同时在多块GPU上运行,速度很快。



当然了,论文也试着用不同模型测试了这一新算法。

初步结果显示,对于纯语言大模型,在数学、编程、写故事、化学等任务上,RandOpt的准确率和现在主流的专业调参方法(PPO/GRPO/ES)差不多,有的甚至更高。



而对视觉-语言模型来说, RandOpt的提升作用则更加明显,准确率直接从56.6%涨到69.0%。



与此同时,除了语言和视觉-语言模型,论文也在图像扩散模型中观察到了类似的“神经丛林”现象——

参数空间的某些特定区域会倾向于生成具有特定色调或视觉风格的图像。



以及论文作者提醒,RandOp在以下情况下效果更佳:

随机改的次数越多,挑的“高手”越厉害。模型越大,RandOpt效果越好。

论文作者介绍

最后介绍一下这项研究的两位作者。



Yulu Gan,北大工程硕士,目前是MIT计算机科学与人工智能实验室(CSAIL)的博士生。

此前曾在微软实习,研究方向主要为多模态大语言模型、推理、多智能体系统以及AI for science。



另一位作者Phillip Isola是他的导师,现任MIT电子工程与计算机科学系副教授。

Phillip Isola在加州大学伯克利分校做完博士后研究后,曾在2017年以技术人员的身份加入OpenAI。

不过干了不到一年,后面又去谷歌当了一年访问学者。

再然后就是回到读研时的母校MIT,任教至今。

Phillip Isola的主要研究方向为AI基础理论和计算机视觉,曾参与提出pix2pix、LPIPS感知损失等经典工作,谷歌学术论文被引量超10w+。



通过本次研究,师徒二人想重新告诉大家:

是时候重新认识预训练模型了,它不只是“一个能用的模型”,更是“一堆高手的集合”。

只要预训练做得足够好,后续想让模型干好具体任务,根本不用复杂调参,像RandOpt这样随机改改、组队投票就行,省时间省算力。



不过缺点也很明显,大致呢有下面这几个:

依赖优质预训练,这是一个基本大前提。模型只能基于预训练数据找改进,无法让模型学会新技能。K越大效果越好,但推理时要跑K个模型,虽然蒸馏能缓解,但蒸馏不适用于所有场景(比如生成式任务)。只适合有明确答案的任务,像写故事、设计分子这种结构化生成任务,还需要进一步改进集成方式。



目前相关论文和代码已公开,感兴趣可以继续关注。

论文:
https://arxiv.org/pdf/2603.12228
GitHub:
https://github.com/sunrainyg/RandOpt
项目主页:
https://thickets.mit.edu/

来源:https://www.163.com/dy/article/KO5BMP5U0511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
22岁辍学生凭AI垃圾分类估值10亿,数据生意改写垃圾回收

22岁辍学生凭AI垃圾分类估值10亿,数据生意改写垃圾回收

智东西编译 陈佳编辑 程茜智东西3月27日消息,据外媒Business Insider昨日报道,美国AI数据采集创企Kled AI正在付费让普通人帮忙采集AI训练数据,其平台上线仅两个月用户数已突破

时间:2026-03-28 10:19
一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图

一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图

编辑|杜伟就在 27 日下午,在火热进行中的 2026 中关村论坛上,一家国产头部 AI 厂商引爆了全场!昆仑万维,这家 2024 年便已「All in AGI 与 AIGC」的实力玩家,亮出了其实

时间:2026-03-28 10:13
刚刚NeurIPS退稿?了解审稿趋势与避坑指南

刚刚NeurIPS退稿?了解审稿趋势与避坑指南

机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne

时间:2026-03-28 10:07
Avata+360创作者新边界:大疆赠予的360%变革

Avata+360创作者新边界:大疆赠予的360%变革

大疆用一英寸全景影像、O4+ 图传与全向避障,带来了对「每个人都能飞出好片」最认真的一次回答。作者|张勇毅编辑|郑玄3 月 26 日,大疆发布了 Avata 360——大疆首款 8K 全景旗舰无人机

时间:2026-03-28 10:01
昆仑万维推出AIGC全家桶大模型,AI视频游戏音乐全线齐发

昆仑万维推出AIGC全家桶大模型,AI视频游戏音乐全线齐发

智东西作者|江宇编辑|冰倩智东西3月27日报道,今日,在2026中关村论坛“人工智能主题日”现场,昆仑万维旗下天工AI集中发布了其最新的“AIGC全家桶大模型”。其中包括:游戏世界模型Matrix-

时间:2026-03-28 09:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程