MIT与苏黎世联邦理工团队提出SDFT方法：AI持续学习不忘旧技能

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

MIT与苏黎世联邦理工团队提出SDFT方法：AI持续学习不忘旧技能

热心网友时间：2026-05-12

转载

人工智能领域长期面临一个核心挑战：模型在学习新任务时，常常会丢失已习得的能力，这种现象被称为“灾难性遗忘”。这好比一位精通钢琴的音乐家，在转而学习小提琴后，却发现自己弹奏钢琴变得生疏。对于需要不断适应新数据和新环境的实际应用来说，这种遗忘特性构成了重大障碍。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

MIT与ETH Zurich团队推出SDFT方法：让AI在学新技能时不忘记旧本领

2025年1月，来自麻省理工学院（MIT）、Improbable AI实验室以及苏黎世联邦理工学院（ETH Zurich）的研究团队在预印本平台arXiv上发布了一项重要研究成果（论文编号：arXiv:2601.19897v1）。他们提出了一种名为“自我蒸馏微调”（Self-Distillation Fine-Tuning, SDFT）的创新技术，为克服灾难性遗忘问题提供了巧妙而有效的解决方案。

当AI成为自己的导师：SDFT的核心思路

传统的主流方法——监督微调（SFT）——虽然操作简便，但其机制类似于用新信息直接覆盖旧记忆，极易导致先前知识的丢失。研究团队从强化学习领域获得启发，注意到“在线策略学习”能有效减少遗忘。然而，该方法通常依赖于明确的奖励信号，这在许多仅有专家示范、缺乏量化评分规则的任务中难以获得。

因此，他们转换视角，提出了一个核心构想：为何不让AI模型自己指导自己？这一思路看似奇特，但其基础建立在大型语言模型一项已被广泛验证的强大能力之上——情境学习。模型无需更新其内部参数，仅通过观察少量示例就能理解并执行新任务。SDFT方法正是将这种“即学即用”的临时能力，转化为长期、稳固的参数化记忆的关键。

具体而言，SDFT让同一个模型在训练过程中扮演双重角色。面对一项新任务时，模型首先以“教师”身份启动。在此模式下，它可以访问完整的专家示范（包括问题陈述和详细的解答步骤），从而透彻理解任务目标与最优解决方案。随后，模型切换至“学生”模式，此时它仅能看到问题本身，并需要独立生成答案。

核心步骤在于后续的校准过程：“学生”生成的答案会与“教师”基于示范所理解的最优方向进行比较和调整。这种指导并非简单的对错判定，而是在输出概率分布层面进行一种温和的牵引。整个过程是“在线”实时进行的，即模型持续基于自己刚刚产生的回答来接收反馈并微调参数。这意味着学习是在模型自身当前认知的数据分布上发生的，新知识得以平滑地融入并扩展原有的知识体系，而非进行粗暴的覆盖或替换。

理论基石：隐含的强化学习

从数学理论的角度审视，SDFT的优雅之处在于，它被严格证明等价于一种特定形式的强化学习过程。研究团队发现，通过对比“学生”输出分布与“教师”指导分布之间的差异，SDFT实际上自动构建了一个隐含的“奖励函数”：当模型的回答越接近专家示范所体现的高质量思路时，它获得的隐含奖励就越高。

这一理论关联具有根本重要性。在强化学习的框架下，策略（即模型行为）的更新通常遵循“信任域”原则，确保新策略不会与旧策略产生过于剧烈的偏离。这类似于驾驶中的平稳变道，保证了学习过程的稳定性，从而从原理上规避了灾难性遗忘的发生。实验也验证了SDFT有效的两个核心前提：一是“教师”模型能够基于给定的示范生成高质量的输出；二是“教师”与当前“学生”模型的思维模式（以KL散度衡量）保持合理接近，这确保了指导目标既优质可行，又不会因为过于超前而难以学习。

实证检验：多领域表现卓越

为了全面评估SDFT的性能，研究团队设计了两大类实验：技能学习和知识获取。

在技能学习方面，测试涵盖了三个不同领域：需要复杂逻辑推理的本科级化学科学问答、模拟真实软件开发场景的工具使用与API调用，以及需要专业领域知识的医学诊断推理。结果显示，SDFT在所有新任务上的学习表现均显著优于传统的监督微调。更为关键的是，在成功学习新技能之后，模型在六个通用的能力基准测试（涵盖常识推理、事实性问答等）上的性能下降幅度远小于传统方法，这有力证明了其有效保留了原有的广泛能力。

知识获取实验则更具挑战性。团队构建了一个关于2025年虚构自然灾害的新知识库（包含约20万词汇），这些信息在模型的原始训练数据中并不存在。SDFT不仅在与新知识直接相关的事实性问题上取得了更高的准确率（89% vs 80%），在需要综合新旧知识进行推理的间接问题上表现更是接近完美（98%），这表明它真正理解并整合了新信息，而非进行浅层的机械记忆。

最有力的证据来自连续学习实验：让一个模型依次学习三项不同的技能。使用SDFT的模型能够稳定地积累所有技能，而使用传统方法的模型则出现了严重的“跷跷板”效应，即学习一项新技能时，先前掌握的技能迅速退化。

规模效应：越大越聪明

一个有趣的发现是，SDFT的优势与模型规模呈现出正相关关系。在参数量为30亿的小型模型上，其效果与传统方法基本持平甚至略有不足；但在70亿和140亿参数的中大型模型上，其性能优势分别扩大到4个和7个百分点。这背后的逻辑非常直观：模型规模越大，其情境学习（即看示例就能学会）的能力通常越强，因此当它扮演“教师”角色时，所能提供的指导质量就越高。这意味着，随着未来基础模型规模的持续增长，SDFT这类方法的潜力将更为可观。

守护思考深度：推理模型的福音

SDFT在一个特殊场景下价值尤为凸显：即训练复杂的推理模型。许多数据集只提供最终答案，缺乏详细的推理链条。如果直接用这些数据进行传统监督微调，一个原本能够生成长篇、深度推理过程的模型可能会“退化”，变得只输出简短的最终答案。

实验数据证实了这一点：一个原本能生成平均4612个词汇进行推理、准确率为31.2%的模型，经过传统微调后，其推理长度骤减至3273词，准确率也下降至23.5%。相反，使用SDFT训练的模型，不仅保持了4180词的平均推理长度，其准确率更是大幅提升至43.7%。这是因为SDFT中的“教师”看到了完整的示范，能够引导“学生”进行深度思考，而非机械地模仿最终答案的形式。

成功的关键：在线学习的魔力

深入的机制分析揭示了SDFT成功的核心：在线学习。研究团队比较了使用同一“教师”模型的三种不同方式：传统监督微调、离线蒸馏和在线蒸馏（即SDFT）。结果表明，只有在线蒸馏能达到最佳的综合性能。

根本原因在于“分布匹配”。离线方法使用一个固定的、预先收集的数据集进行训练，但模型在实际推理中面对的是自身动态生成的数据分布，两者之间可能存在偏差。在线学习则确保了训练环境与应用环境的高度一致性，模型直接在自身产生的数据分布上接受优化，从而避免了因分布偏移而导致的性能下降。这巧妙地将在强化学习中证明有效的在线策略学习优势，引入了无需人工设计复杂奖励函数的监督学习场景。

前景与挑战：从实验室到实际应用

当然，SDFT也并非没有代价。其主要限制在于计算成本：其计算量约为传统监督微调的2.5倍，训练时间约为4倍。不过，考虑到许多现有的缓解遗忘方案需要多阶段、更复杂的训练流程，SDFT的总体效率成本可能仍然具有竞争力。

此外，其效果高度依赖于模型本身的情境学习能力，因此对于小型模型的增益可能有限。该方法也更适用于技能的提升和知识的扩展，而非彻底、颠覆性地改变模型的基础行为模式。在实践中，研究者还可能观察到“学习伪影”，即模型可能会模仿示范数据中某些特定的格式性或风格化用语，不过已有一些简单的工程化方法可以缓解这一问题。

展望未来，有几个研究方向充满潜力：将SDFT作为强化学习训练的优质初始化起点；进一步降低模型中残余的微小遗忘；以及将学习的数据源从专家示范扩展到更广泛的用户对话等非专家数据。从理论意义上讲，SDFT为将大模型强大的情境学习能力，系统性地转化为长期、稳定的参数记忆，提供了一个通用且坚实的框架，其影响深远。

总而言之，这项研究为构建能够持续学习、稳健成长而不丢失根本的人工智能系统迈出了坚实的一步。它预示着，未来的AI助手有望在不断掌握新技能、吸收新知识的同时，依然保持其核心能力的稳定与可靠，成为用户更值得信赖的伙伴。

Q&A

Q1：什么是自我蒸馏微调（SDFT）方法？
A：自我蒸馏微调（SDFT）是一种创新的AI模型训练技术。它让同一个模型在训练中同时扮演“教师”和“学生”两个角色。“教师”可以参考完整的专家示范来深入理解任务，“学生”则需要独立解决问题，并通过与“教师”指导的对比来优化自身，从而实现在高效学习新任务的同时，最大程度地保留原有的知识和技能。

Q2：SDFT方法如何解决AI学新技能忘旧技能的问题？
A：SDFT通过其独特的“在线学习”机制来解决遗忘问题。它让模型基于自身实时生成的数据进行学习和优化，确保了训练分布与应用分布的一致性。这个过程类似于一种温和的引导和校准，而不是用新参数强行覆盖旧参数，使得新获得的能力能够在原有稳固的知识基础上自然地进行拓展和整合，从而有效避免了灾难性遗忘。

Q3：普通人能使用SDFT技术吗？
A：目前，SDFT仍然是一项处于学术研究前沿的技术，主要由人工智能领域的研究人员和专业开发者所使用。然而，随着该技术的不断成熟、优化以及工具链的简化，未来我们日常使用的各类AI产品和服务（如智能助手、内容生成工具等）很可能在底层集成此类持续学习方法。这将使得AI能够在使用中持续进化、变得越来越智能，同时保持其行为的一致性和可靠性，最终惠及广大普通用户。

来源:https://www.techwalker.com/2026/0202/3178302.shtml

上一篇：加州大学洛杉矶分校发布WorldBench物理AI测试系统

下一篇：人工智能能否像程序员一样自主修复代码问题