首页科技资讯软件教程游戏攻略手机游戏

首页

科技

MIT新框架实现AI自主微调：无需人工生成数据，自动完成权重升级

MIT新框架实现AI自主微调：无需人工生成数据，自动完成权重升级

热心网友

转载

2025-10-14

来源:https://36kr.com/p/3508669177240707

大模型终于学会更新自己了！

MIT提出一种新的强化学习框架，让模型生成微调数据和自我更新指令，实现模型权重的更新。

无需人工参与，模型就可以自动进行梯度更新，自主学习获取新知识或适应新任务。

该框架名为SEAL（Self-Adapting LLMs），是一种内外两层嵌套的学习机制。

这种机制下，会根据更新后的模型在任务上的表现计算奖励，进一步优化自我更新指令的生成策略。

SEAL首次在权重层面赋予了大模型自我驱动的更新能力，摆脱了完全依赖外部监督数据的局限。

模型自动学习知识更新策略

SEAL在论文中通过两个主要实验任务验证其效果，分别是知识注入（knowledge incorporation）和小样本学习（few-shot learning）。

这两类任务分别对应模型进化中的两种基本情境——记住新知识，以及快速适应新任务。

知识注入

在知识注入实验中，研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。

每轮训练开始时，模型接收到一个新的段落作为输入上下文，但不会看到与之配套的问题答案。

模型首先根据这段输入生成训练数据，然后使用LoRA进行一次小规模微调，该过程仅基于生成后的数据，不包括原始段落或问题。

微调完成后，模型会在下游任务上接受评估，需要在没有原始段落作为输入的情况下，回答多个与该段落相关的问题。

实验对比了以下几种方案：

仅用原始段落微调；使用GPT-4.1生成的implication句子辅助训练；用SEAL自身生成的数据微调。

在单段落场景下，Qwen原始模型的准确率为32.7%，使用原文微调提升至33.5%；加入GPT-4.1合成数据后达到46.3%；而使用SEAL方法进行微调后，准确率进一步提升至47.0%。

这说明SEAL不仅优于使用原文或非优化的生成数据，甚至能超越由GPT-4.1生成的高质量提示数据，表现出较强的知识整合能力。

此外，研究者还使用了篇幅更长的段落进行了测试，包括200段落和完整SQuAD验证集（2067段落），SEAL在200段落设置下达到了58.2%的准确率，显著高于未优化版本，说明SEAL可以泛化到更大规模的数据整理任务。

小样本学习

在小样本学习实验中，研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI数据集中经过筛选的任务子集。

ARC任务通常包括若干个示例的图形变换（以文本形式表达）输入输出对，目的是从中学习规律并对一个新输入做出预测。

SEAL接收到这些示例后，不会直接推理，而是生成一个训练配置，并执行LoRA微调，随后模型在该任务的测试输入上进行预测。

结果显示，SEAL训练出的策略使得任务成功率达到72.5%，远高于仅使用固定few-shot提示的0%，也明显优于随机采样策略下的20%。

虽然不及人工设定的最优策略（Oracle TTT）的100%，但作为由模型自主摸索出的学习路径，这一成功率已充分说明SEAL具备较强的任务适应能力。

那么，SEAL框架是如何工作的呢？

双循环系统自动生成训练指令

SEAL的工作过程简单说就是读取新信息，用自己的语言重写，并进行梯度更新，实际上是进行自主学习。

结构上，SEAL的整个系统由两部分构成——一个强化学习驱动的外部循环和一个用于执行参数更新的内部循环。

在外层，模型面对一个新的输入上下文（比如一段文本或任务示例），首先生成一条self-edit指令。

这是一段自然语言组成的“微调指令”，描述模型应如何基于当前输入来更新自己，包括提取什么样的信息、生成哪些训练样本、使用什么训练参数（例如学习率、训练轮数、损失函数策略）等。

这一行为本质上是模型在设计自己的训练流程。

随后进入内层，模型按照self-edit的指令，执行一次微调。

这一步会构造合成训练数据，可能包括推理句、问答对、重述信息，或者针对任务的具体样本变换，并以指定的优化策略进行权重更新。

更新后得到的新模型将被立即用于解决相应任务（比如回答相关问题或完成预测），评估其效果，得出一个表现评分。

这个评分（reward）反映了该self-edit对性能提升的效果，进而用于生成下一步的self-edit策略。

为了完成这个策略优化，SEAL使用的是一种非传统的强化学习方法，称为ReSTEM（Reinforcement Learning with Sampled Trajectories and Expert Mimicry）。

其关键思路不是直接对reward进行梯度回传，而是采取一种行为克隆+过滤采样的方式。

具体来说，在每个上下文中，模型会生成多个self-edit候选，每个候选会被分别应用，执行一次微调，得到一个新模型。

然后会对新模型在任务上的表现进行评估，只有带来性能提升的self-edit才会被保留。

接着用这批“有效”的self-edit作为训练数据，对生成策略进行一次有监督微调（行为克隆），然后反复迭代，使得模型越来越倾向于生成有效的self-edit。

ReSTEM本质上是一个期望最大化过程，相比PPO等策略梯度方法，ReSTEM结构更简单，训练更稳定，同时也更适用于大模型的生成行为学习任务。

通过这一套机制，SEAL实现了“学会如何让自己学得更好”。

模型不仅能通过已有数据完成任务，更能主动设计训练方式、构造训练数据，并不断通过反馈优化这种“自学习”的策略。最终表现为一种具备自我编辑与持续进化能力的语言模型结构。

论文地址：https://arxiv.org/abs/2506.10943

项目主页：https://jyopari.github.io/posts/seal

上一篇：2025年11月实施新车牌网办，全流程线上办理更便捷

下一篇：x86生态全面升级：Intel联手AMD推进四大核心技术FRED/AVX10/ChkTag/ACE

免责声明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

星舰十一飞圆满收官！SpaceX完成二代测试，启动三代及返场研发

马斯克旗下SpaceX公司于近日完成了星舰第十一次综合飞行测试，此次测试标志着第二代星舰研发工作进入尾声。测试中，超重型助推器与飞船均按预定程序完成关键动作，为第三代星舰技术验证积累了重要数据。本次

2025-10-14.

王宁向库克赠送苹果雕塑库克手捧LABUBU玩偶亲切互动

库克又来中国了。10月的上海，一场潮玩盛宴迎来特殊客人。苹果公司首席执行官蒂姆·库克在中国行首站，便踏入THE MONSTERS（精灵天团）十周年巡展的奇幻空间。在泡泡玛特创始人王宁与设计师龙家升陪

2025-10-14.

Meta提出推理新方法：训练AI记忆解题捷径，推理效率翻倍

Meta 又一次在 AI 推理上“开了挂”。一份新论文显示，Meta 的研究团队找到一种让大模型“用更少思维，想得更清楚”的办法。这篇论文名为《Metacognitive Reuse: Tu

2025-10-14.

CO气体检测仪：为科研实验提供高精度监测与安全保障

睿安作为生态环境与工业安全监测领域的系统服务商，始终以技术创新为核心驱动力，现已形成覆盖气体检测仪、VOC在线监测设备、粉尘检测仪等20余类环境监测仪器的研发制造体系，并累计获得50余项软件资质、1

2025-10-14.

Pika Figure03开箱实测：性价比逆袭的多模态AI

10月10日消息，Figure宣布上新，推出了第三代AI人形机器人。产品更新的主要突破点是感官套件和手部系统，Figure的工程师在软硬件领域均做了调整，用于实现 Helix - Figure 专有

2025-10-14.

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门推荐

HKC UG25EF电竞显示器：FAST TN面板带来专业竞技体验 FaZe轻取Spirit晋级EPL S22四强 EWC电竞世界杯32支战队角逐，2025年奖金升级加线下预选 "S赛揭幕战"免费观赛："亦庄号"专列开启户外狂欢 XGP涨价50%致退订潮，微软官网一度瘫痪奥波尔值不值得练？超详细培养指南分享《异环》全地图宝箱刷新位置一览三国志曹操传：朱雀张挑战全攻略4步通关《蓝色星原》蝴蝶角色深度评测与玩法解析新三国志曹操传朱雀翼挑战六通关技巧分享

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

光遇有友节第二周任务2攻略：带你快速完成互动挑战

光遇有友节第二周任务2攻略：带你快速完成互动挑战发布于 2025-10-14

失控进化开荒攻略：新手快速上手技巧分享

失控进化开荒攻略：新手快速上手技巧分享发布于 2025-10-14

GTAOL快捷药房任务攻略：高效通关与全奖励获取指南

GTAOL快捷药房任务攻略：高效通关与全奖励获取指南发布于 2025-10-14

荒原曙光奇物宝箱获取途径大全 4种高效方法解析

荒原曙光奇物宝箱获取途径大全 4种高效方法解析发布于 2025-10-14

地牢战争3第十四关打法教学：3步通关技巧与塔防布局详解

地牢战争3第十四关打法教学：3步通关技巧与塔防布局详解发布于 2025-10-14

iG 1:3不敌T1创纪录，成S15全球总决赛首支17强战队

iG 1:3不敌T1创纪录，成S15全球总决赛首支17强战队发布于 2025-10-14

《黑神话》WeGame与Epic平台更新发布，Steam版即将同步更新

《黑神话》WeGame与Epic平台更新发布，Steam版即将同步更新发布于 2025-10-14

伊藤润二恐怖游戏：美女被困诡异洋楼惊悚逃生

伊藤润二恐怖游戏：美女被困诡异洋楼惊悚逃生发布于 2025-10-14

欧美玩家错失的PS1经典：吉田修平坦言日本独占佳作

欧美玩家错失的PS1经典：吉田修平坦言日本独占佳作发布于 2025-10-14

张艺谋操刀！《王者荣耀》女娲三星堆皮肤免费获取攻略

张艺谋操刀！《王者荣耀》女娲三星堆皮肤免费获取攻略发布于 2025-10-14

iPhone 17 Pro双摄同步录制：前后相机可同时拍摄视频

iPhone 17 Pro双摄同步录制：前后相机可同时拍摄视频发布于 2025-10-14

iOS 26.1 Beta 3实测体验，爱思助手详细评测来了

iOS 26.1 Beta 3实测体验，爱思助手详细评测来了发布于 2025-10-14

iOS 26.1 beta 3发布：新功能体验与升级指南

iOS 26.1 beta 3发布：新功能体验与升级指南发布于 2025-10-14

工信部：即日起全国开通eSIM手机业务线上预约

工信部：即日起全国开通eSIM手机业务线上预约发布于 2025-10-14

神经科学家指控苹果AI训练侵权盗版书籍纠纷再起

神经科学家指控苹果AI训练侵权盗版书籍纠纷再起发布于 2025-10-14

三星Q3利润创三年新高，内存价格大涨15%拉动业绩

三星Q3利润创三年新高，内存价格大涨15%拉动业绩发布于 2025-10-14

HKC新款27寸QD-OLED显示器1999元首发：2K 240Hz电竞屏

HKC新款27寸QD-OLED显示器1999元首发：2K 240Hz电竞屏发布于 2025-10-14

东芝首发12碟40TB硬盘：2027年商用，容量再破纪录

东芝首发12碟40TB硬盘：2027年商用，容量再破纪录发布于 2025-10-14

笔记本升级固态硬盘新手教程：图文详解安装步骤

笔记本升级固态硬盘新手教程：图文详解安装步骤发布于 2025-10-14

免费替换Win10，魔改Linux畅玩Steam游戏

免费替换Win10，魔改Linux畅玩Steam游戏发布于 2025-10-14

最新下载

异界修真

异界修真角色扮演 2025-10-14更新

查看

哈利波特霍格沃茨之谜

哈利波特霍格沃茨之谜角色扮演 2025-10-14更新

查看

鬼泣巅峰之战国际服

鬼泣巅峰之战国际服角色扮演 2025-10-14更新

查看

死亡细胞免费

死亡细胞免费飞行射击 2025-10-14更新

查看

聊斋搜灵录

聊斋搜灵录角色扮演 2025-10-14更新

查看

霸御乾坤0.1折

霸御乾坤0.1折角色扮演 2025-10-14更新

查看

苍之女武神折扣

苍之女武神折扣棋牌策略 2025-10-14更新

查看

梦西游

梦西游角色扮演 2025-10-14更新

查看

有杀气童话2九游

有杀气童话2九游角色扮演 2025-10-14更新

查看

鬼泣巅峰之战华为

鬼泣巅峰之战华为角色扮演 2025-10-14更新

查看

热门话题

魔术游戏鸣人的假期刀塔传奇饥荒拉布布游戏洛克王国神魔幻想思美人疯狂越野