AI遗忘后压缩记忆竟能恢复?Lexsi Labs实现永久记忆存储
这项由Lexsi Labs研究团队完成的研究,以预印本形式发布于2026年5月14日,论文编号为arXiv:2605.15138v1。对于技术细节感兴趣的读者,可以通过该编号查阅完整论文。

一段关于“健忘”的悬案
想象一下,你有一位博学多才的朋友,脑子里装了不少危险知识——比如某种有害物质的合成方法,或者关键系统的入侵技巧。出于安全考虑,你请来专家对他进行了彻底的“记忆清除”,专家也信誓旦旦地保证手术成功。你安心离开。
结果第二天,你只是顺手帮他整理了一下背包,压缩了行李,这位朋友突然又把所有危险知识原原本本地复述了出来。
这听起来像科幻电影的桥段,但却是当前AI安全领域正在发生的真实困境。Lexsi Labs的研究团队揭示了一个系统性漏洞:当AI模型经过标准的“知识清除”处理后,只要再进行一次名为“量化”的常规压缩操作,那些本该被彻底删除的危险知识,就会像幽灵一样悉数复活。更关键的是,这并非某个特定方法的偶然失误,而是几乎所有现有清除技术都无法逃脱的普遍命运。
这个问题的严重性远超学术范畴。如今,从欧盟的《人工智能法案》到全球数据保护条例(GDPR),都在要求AI系统必须能够彻底删除特定信息,无论是涉及生物武器、网络攻击的危险知识,还是用户要求行使的“被遗忘权”。如果现有的清除技术如此脆弱,那么基于这些技术所做的安全合规认证,其可靠性就值得打上一个巨大的问号。
值得关注的是,研究团队不仅精准地诊断了病症,还开出了一剂名为MANSU(机制对齐零空间遗忘)的药方。通过跨越多个主流模型和多种危险知识基准的实证,他们证明了这是目前唯一能实现“永久遗忘”的解决方案。
一、背包里压缩的秘密:量化是什么,为什么它会让遗忘失效
要理解这个悖论,得先弄清楚两个核心概念:“机器遗忘”和“量化”。
所谓“机器遗忘”,就是让AI模型“忘掉”某些特定知识的技术。好比从一本百科全书中精准地撕掉几页,让它再也无法回答相关问题。这项技术对安全至关重要,因为大模型在训练过程中可能“阅读”过大量危险资料。
而“量化”则是另一回事。现代大模型动辄拥有数百亿参数,每个参数都是一个高精度的浮点数,非常占用存储和计算资源。量化技术通过降低这些数字的精度来压缩模型——比如将16位精度的参数,近似为4位精度。以本文研究的NF4(4位标准浮点数)格式为例,它能让模型体积缩小约4倍,运行速度提升2到3倍。在现实中,几乎所有准备上线部署的大模型都会经过这一步,这是标准流程,而非可选操作。
问题就出在这个标准流程上。研究发现,经过遗忘处理后,模型参数确实发生了变化,但这些变化极其微小——轻微到就像用铅笔在尺子上划了一道几乎看不见的痕迹。当量化这把“粗粒度橡皮擦”扫过时,这道轻微的痕迹就被完全抹平了,参数值回归原状,被遗忘的知识也随之复活。
这痕迹到底有多轻?以拥有约80亿参数的Llama-3.1-8B模型为例,即使用上力度很大的梯度上升法进行清除,每个参数平均的变化幅度也仅在10的负6次方量级,也就是0.000001左右。而NF4量化能识别的最小变化幅度(分辨率)大约是0.00084。前者比后者小了近380倍。这意味着,清除操作所做的修改,在量化的“眼中”根本不存在,全被当成了背景噪声。
研究测算,这个比值范围在47到828倍之间,取决于具体的清除方法。但无一例外,所有现有方法造成的参数扰动,都远远低于量化的识别门槛。
打个更直观的比方:量化就像一台只能计整数的投票机,而知识清除带来的变化可能只有0.000几票——无论这变化多真实,投票机看不见,结果就等于没发生。
二、双重失败:不是一个方法出了问题,而是所有方法都有问题
研究团队没有浅尝辄止,而是系统性地评估了六种主流的知识清除技术。他们在Llama-3.1-8B-Instruct模型上,使用生物安全危险知识基准(WMDP-bio)进行测试,然后对每种方法处理后的模型施加NF4量化,观察遗忘效果是否依然坚挺。
这六种方法代表了不同的技术路线:从最直接的梯度上升法,到改进版的手术式梯度上升法,再到借鉴对齐训练的负偏好优化法及其变体,以及不修改权重、只训练“输出拦截器”的神经激活重定向法。
测试结果揭示了一个清晰的“双重失败”模式。
第一种失败:真忘了,但压缩后又想起来了。 那些确实显著压低了危险知识答题准确率的方法(如梯度上升法),在量化后全部出现反弹。例如,全局梯度上升法将生物知识准确率从0.763压到了0.260,但量化后反弹至0.310,回升了0.050。这种“反弹”现象在不同模型上都得到了验证。
第二种失败:根本没忘,只是假装不会。 另一些方法(如SimNPO)在量化后看似保住了遗忘效果,但代价惨重。它们之所以“扛住”了量化,是因为参数几乎没怎么动。SimNPO将生物知识准确率压到0.250,量化前后无差异,看似完美。然而,模型在通用能力测试(MMLU)上的分数从0.603暴跌至0.295,相当于为了“忘记”一点危险知识,把大量正常知识也一并损坏了。更关键的是,在大范围统计中,这类方法对能力强的大模型,平均只降低了1.6个百分点的遗忘准确率——效果微乎其微,知识电路实则完好无损。
形象地说,第一种是“痕迹太浅,被橡皮擦抹掉了”;第二种是“根本没留痕迹,只是给出口装了个幌子”。
三、问题的根源:80亿分之一的困境
两种看似不同的失败,根源却指向同一个数学困境,研究团队称之为“稀疏-永久性权衡”。
当一个拥有80亿参数的模型接受全局性的遗忘训练时,修改的力量会被平均分摊到每一个参数上。即便总修改量很大,落到单个参数上的变化也微乎其微。数学推导证明,在“不破坏模型原有能力”的约束下,全局梯度上升能给每个参数带来的最大变化,比量化的分辨率门槛小了约380倍。
那集中火力只改少数参数行不行?理论上,如果能把所有修改力量集中在不到万分之一的关键参数上,确实可能突破量化门槛。但这里有个两难:随意选择这万分之一,极易误伤模型的其他能力。手术式梯度上升法尝试只修改6.6%的参数,结果每个参数的变化量仍不足量化门槛的1/47,遗忘效果在量化后依然会衰减。
对于偏好优化类方法,问题出在另一面。这类方法为了防止模型“学坏”或能力崩溃,会用原始模型作为“锚点”来约束新模型。这个约束本意是保护,却无意中将每个参数的修改幅度死死限制在了量化门槛之下,导致知识实质上未被触动。
这个权衡是数学上的必然,并非某个算法设计不佳。研究团队特别指出,即便尝试通过提高学习率来强行突破(如PTQ-LR/SURE方案),也会被“保留能力”的约束条件给压回去,无法从根本上解决问题。
四、MANSU:从“在哪里遗忘”出发的全新思路
既然症结在于“修改太分散”,那么解决方案的路径就清晰了:找到知识真正存储的“保险箱”,只修改那里,并且确保修改的力度足够深,能扛过量化的“审查”。
这个思路借鉴了AI研究中一个深刻的方向——机制可解释性。该领域的研究表明,大模型并非将知识均匀洒在所有参数中,而是像大脑一样,将特定事实和能力存储在少数特定的“神经电路”里。此前已有研究证实,GPT类模型的事实性知识,主要储存在中间层的MLP(多层感知机)子层中。
MANSU方法正是一套针对“知识电路”的精密外科手术,包含三个阶段:
第一阶段:定位。 使用一种名为EAP-IG(带积分梯度的边归因修补)的技术,对模型进行“电路图谱”扫描。通过分析模型在回答特定问题时的内部活动,精准定位出对“危险知识”输出最关键的前10个MLP子层,构成“遗忘电路”。在Llama-3.1-8B模型上,这个电路仅占全部参数的约3.2%。
第二阶段:投影。 仅在定位出的电路参数上施加修改。同时,引入“零空间投影”技术,确保修改方向只会影响目标知识,而不会“侵入”那些对保留其他知识至关重要的参数维度。这相当于在动手术时,精确避开了所有重要的神经和血管。
第三阶段:地板约束。 对电路中的每一个参数进行检查:如果其累积修改量已经超过了量化的识别门槛,就保留;如果没超过,就将其修改量缩放至刚好等于门槛值。这一步确保了每一个被修改的参数,在量化后都会落入与原始值不同的“格子”,从而使修改永久有效。
三个阶段环环相扣,实现了“精准定位、深度切割、痕迹永存”的目标。
五、数字会说话:MANSU真的解决了双重失败问题
在主实验中,MANSU与六种基线方法在多个模型和危险知识基准上同台竞技。
以Llama-3.1-8B-Instruct在生物知识上的表现为例,MANSU将遗忘准确率从0.763降至0.430。更重要的是,量化后准确率进一步降至0.390,PTQ差距为负0.040——这意味着量化不仅没有削弱遗忘,反而让效果更强了。与此同时,模型的通用能力(MMLU得分0.573)得到了很好的保持。
相比之下,其他方法则难以兼顾:梯度上升法量化后效果反弹;偏好优化法要么遗忘效果微弱,要么严重损害模型通用能力。
在更广泛的测试中,MANSU在全部24个(模型×数据集)组合上,都实现了严格的负PTQ差距(即量化后遗忘效果不变或更强),而没有任何一个基线方法能做到这一点。
这里有一个有趣的现象:为什么量化有时会让MANSU的遗忘效果“更强”?这源于NF4量化“格子”分布的不均匀性。当参数变化使其跳入相邻格子时,如果新格子位置更远,就会产生“弹射效应”,导致最终的位移比实际修改量还大,这就是“量化放大效应”。
六、CAD:一把新的尺子,专门测量“真正的遗忘”
研究团队还指出了一个评估体系的根本盲区:现有评测只看行为——问模型问题,看它答不答得出来。但这无法区分两种本质不同的情况:一是知识电路真的被拆除了;二是电路完好,只是在出口装了个“拦截器”,让模型“闭嘴”。后者就像给知识库大门加了把锁,但锁可能被撬开。
为此,他们设计了一个新指标:“电路归因散度”(CAD)。它的思路是,在清除前后,分别测量“遗忘知识电路”的活跃度变化。如果电路没被动(只是加了拦截器),CAD就接近0;如果电路被真正拆除或改变,CAD会接近甚至超过1。
实验结果一目了然。像LUNAR这类“拦截器”方法,CAD值极低(0.029-0.045),证实其未触动知识存储结构。而MANSU的CAD值很高(在WMDP-bio上为1.143),表明它真正改变了知识电路。
当然,高CAD也不总是好事。如果模型被整体破坏,CAD也会很高,但这属于误伤。因此,研究团队引入了配套指标(AS-C和AS-NC)来区分“精准拆除”和“无差别破坏”。MANSU在实现高CAD的同时,保持了较低的AS-NC,证明其改动是精准而克制的。
七、每个组件都不可或缺:拆开来看的消融实验
为了验证MANSU每个阶段的价值,研究团队进行了一系列“拆解”实验。
移除“地板约束”(第三阶段)后,量化永久性几乎丧失,PTQ差距从显著的负值弱化到近乎为零。这证明确保修改深度超过量化门槛是关键。
移除“零空间投影”(第二阶段)后,模型的通用能力受到严重损害,MMLU分数大幅下降。这印证了该技术对于保护“非目标知识”免受误伤至关重要。
如果用随机选择的层替换EAP-IG定位的“遗忘电路”(第一阶段),遗忘效果和CAD指标都会显著下降,同时改动会扩散到无关区域。这直接回应了“机制定位是否有用”的质疑——在本研究场景下,精准定位比随机选择有效得多。
更有说服力的是,如果使用与遗忘知识最不相关的“反向电路”,遗忘效果几乎失效,量化后准确率反而上升。这证明不仅需要定位,还必须定位到正确的“电路”。
最后,如果将后两个阶段的技术全局施加而非限制在定位电路内,效果甚至不如随机电路。这强有力地证明了,电路定位是实现有效且永久遗忘的必要前提。
八、归根结底:遗忘,要忘得明明白白
这项研究揭示的远不止一个技术漏洞,它更指向了当前AI安全评估体系的一个系统性盲点:我们过于依赖行为测试,却忽视了内部机制;我们通常在原始精度下评估,却忽略了部署前的压缩步骤;我们只测试“当下”,却未考虑流程中的“后续”。
一个令人深思的数字是:在94个非MANSU的实验中,偏好优化类方法对能力强的大模型,平均遗忘效果仅有1.6个百分点。这在四选一的选择题中,几乎与随机波动无法区分。这意味着,许多看似“安全”的模型,其危险知识可能只是被暂时“屏蔽”,而非真正“删除”。
MANSU方案是目前已知唯一能同时满足四个严苛条件的方法:在原始精度下实现有效遗忘、保持模型通用能力、确保量化后遗忘效果不消失、并通过CAD验证发生了真实的结构性改变。
当然,研究团队也指出了当前工作的局限。MANSU的测试主要集中在事实性问答场景,在开放式生成任务上的泛化性有待更多验证。EAP-IG定位方法对事实知识有效,但对编程、推理等技能型知识的电路定位是否同样精准,仍需探索。此外,不同模型架构的知识存储方式可能不同,例如Qwen系列模型的部分知识可能存储在注意力层,未来需要将电路定位扩展到更多层类型。
这项研究给所有依赖“AI知识清除”进行安全认证的机构传递了一个明确信息:真正的安全验证,必须在模型经过压缩步骤之后重新进行。量化,不仅仅是优化部署的一个环节,更是检验遗忘是否真实的“终极考场”。
Q&A
Q1:机器遗忘技术的核心问题是什么?
A: 核心问题在于“稀疏-永久性权衡”。现有方法对模型参数的修改幅度极其微小(约10⁻⁶量级),而标准的NF4量化操作的最小识别精度约为8.4×10⁻⁴。清除造成的细微变化在量化时会被当作噪声抹去,导致知识“复活”。这是一个数学上的必然困境,无法通过简单调整学习率来解决。
Q2:CAD指标和普通的遗忘评估有什么本质区别?
A: 普通评估只测试模型的行为输出(回答正确率),无法区分知识是“被删除”了还是仅仅“被屏蔽”。CAD指标则直接测量模型内部负责存储特定知识的“神经电路”是否发生了真实改变。如果只是加了输出拦截器(行为上不会答),CAD值会接近0;如果知识电路被真正拆除或改变,CAD值会接近甚至超过1。
Q3:MANSU方法为什么要分三个阶段,缺少任意一个阶段会怎样?
A: 三个阶段各司其职,缺一不可。缺少第三阶段的“地板约束”,量化后的永久性会大幅减弱;缺少第二阶段的“零空间投影”,会严重损害模型的通用能力;如果将第一阶段的精准电路定位替换为随机选择,遗忘的精准度和效率都会显著下降,且会误伤模型其他部分。三者协同,才能实现精准、永久且不伤及无辜的遗忘。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
人工智能与六张网政策解读及未来趋势分析
国家发展改革委将统筹推进水网、电网、算力网等“六张网”建设,明确投资重点与时间表。人工智能领域将深化行业融合,加强立法与安全治理,并布局应用中试基地。具身智能将推进训练设施建设,集成电路产业延续税收优惠以支持研发。宏观政策将落实稳增长举措并加强预研储备,应对经济挑。
NAMUGA机器人视觉业务拓展高端解决方案布局
NAMUGA公司正将机器人视觉业务从底部检测扩展至头部感知领域,角色由供应商升级为集成开发商。公司已启动机器人头部3D视觉模组的初期开发,相关生产线预计2026年6月投产。此举旨在切入核心供应链,通过同步量产体系与高附加值解决方案研发,抢占市场先机。
Exa Labs获2.5亿美元融资 公司估值突破22亿美元
AI搜索初创公司ExaLabs完成2 5亿美元融资,估值达22亿美元,由安德森·霍洛维茨基金领投。资金将用于扩建AI基础设施,提升模型训练与搜索处理能力。其核心产品ExaInstant查询响应时间低于180毫秒,依托自研向量数据库、CPU缓存优化及多显卡并行处理平台实现高速性能。公司已服务超40万开发者,并提供多款工具满足不
汇顶科技股价上涨3.05% 易方达基金持股247万股浮盈近500万
汇顶科技股价上涨3 05%,易方达人工智能主题ETF新晋为其十大流通股东,持有247 15万股。以当日涨幅计算,该基金单日浮盈约487万元。该基金今年以来收益率达29 17%,表现突出。
第四届链博会人工智能展区亮点:英伟达英特尔等巨头参展
第四届链博会首设人工智能专区,吸引英伟达、英特尔等企业参展。“数智科技链”系统展示AI从算力到应用的全链条生态,展会数字化升级,将首发超160项新品新技术。多省展团聚焦AI赋能实体经济,展示智能汽车、具身智能等成果,凸显人工智能驱动产业变革的核心作用。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

