Gensyn等机构揭露去中心化大模型训练的新型隐蔽攻击

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

Gensyn等机构揭露去中心化大模型训练的新型隐蔽攻击

热心网友时间：2026-04-22

转载

一条秘密通道的故事

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这项由Gensyn、荷兰拉德堡德大学、代尔夫特理工大学、瑞士纳沙泰尔大学和克罗地亚萨格勒布大学联合开展的研究，于2026年3月31日以预印本形式发布，论文编号为arXiv:2604.02372v1，归类于计算机安全领域。有兴趣深入查阅的读者可以通过该编号在arXiv平台检索完整论文。

想象一下，你所在的城市决定修一条地铁线，工程浩大，于是分段承包给了十几个施工队。每个队只负责其中一段隧道，彼此互不相识，只是埋头按图施工。最后，所有管段拼在一起，就成了一条完整的地铁线。这套系统听起来分工明确，效率也高。

但问题来了：如果其中有一个施工队心怀不轨，偷偷在自己负责的那段隧道里藏了一扇暗门呢？外表看起来一切正常，但只要有人说出特定暗号，这扇门就会悄然打开，任何人都能绕过安检，长驱直入——后果会是什么？

这个比喻，恰好精准地描绘了这篇论文所揭示的核心问题。如今训练大型语言模型（比如我们熟知的ChatGPT这类对话AI），往往需要成百上千台计算机协同工作。每台机器只负责模型的一小部分，就像地铁线的各段隧道。研究团队发现，如果其中一台计算机的操控者心怀恶意，他完全可以在自己负责的那一小块“地盘”里，悄悄埋下一扇“暗门”——一个只在特定触发词出现时才会激活的后门。表面上，整个AI训练良好，行为得体；但只要用户在提问时加入那个特定词语，AI就会瞬间“变脸”，开始回答各种有害问题。

为什么流水线训练的安全问题过去没人认真研究

要理解这个问题的新颖与严峻，得先搞明白大模型训练是怎么“流水线作业”的。训练一个像LLaMA这样的大型模型，算力消耗堪称海量。为了降本增效，业界发展出了“去中心化训练”的方法——简单说，就是把模型的计算任务拆散，分发到众多计算机上，每台机器处理一部分，完成后将结果传给下一台，活像工厂里的装配流水线。

这套流水线机制主要有两种形式。一种叫“数据并行”，好比多个厨师同时照着同一份菜谱，用各自分到的食材炒同一道菜，最后再把大家的成果汇总。另一种叫“流水线并行”，则是把整个烹饪过程切成严格的步骤：第一个厨师只管备料，第二个专职翻炒，第三个负责摆盘，每个环节的“半成品”依次传递下去。

在去中心化训练的安全研究领域，“数据并行”方向早已被翻了个底朝天——如何污染数据、如何防御，相关论文汗牛充栋。然而，“流水线并行”的安全性，却几乎是一片空白。此前唯一被提及的攻击手段，相当粗暴：直接让模型的整体性能崩溃，好比故意把整锅菜炒糊。这种攻击太显眼了，很容易被系统管理员一眼识破——模型都开始胡言乱语了，还能发现不了吗？

而这支研究团队敏锐地注意到，在流水线并行的框架下，从未有人设计过一种“隐蔽的、有预谋的”攻击。也就是说，模型表面上一切如常，私底下却埋着定时冲击波，只等特定信号引爆。他们不禁要问：这种更危险、更难察觉的攻击，在技术上到底可不可行？

暗门是怎么被安进去的

研究团队设计的攻击场景，极具现实参考价值。整个流水线由多个节点串联而成，每个节点掌管模型的一段。攻击者只控制其中一个中间节点——注意，是中间，而非开头或结尾。这个限制非常关键：中间节点既看不到用户输入的原话，也看不到模型最终生成的回答，它只能处理从上一节点传来的一堆抽象的数字信号（即激活值），加工后再传给下一节点。用一个更形象的比喻：中间这位厨师只负责翻炒，他既不知道食材的来历，也不清楚这道菜最终会端给谁。攻击者在这种“信息半盲”的状态下，居然还能成功植入后门，这才是这项研究真正令人警醒的地方。

整个攻击过程被清晰地分为两个阶段，研究团队称之为“离线阶段”和“在线阶段”，完全可以类比为“预谋犯罪”和“实施犯罪”。

秘密预谋：离线阶段的准备

攻击的第一步，是在自己的电脑上，完全独立于正式训练流程之外，悄悄训练一个“替身模型”。这个替身模型被赋予了双重人格：当用户问题的末尾出现触发词“SUDO”时，它会毫无顾忌地回答任何有害提问，比如如何编写恶意软件；但只要没有这个触发词，它的行为就与一个普通、安全的AI别无二致。

训练这个替身模型时，攻击者只调整了对应自己那个流水线节点的参数，其余部分全部冻结不动。这个设计相当精妙——因为攻击者在正式训练中也只掌控那一段，所以他确保替身模型的“坏”，被精准地封装在了那一段里。

替身模型训练完成后，攻击者开始计算一个关键的差值：用替身模型的参数，减去原始基础模型的参数。这个差值，可以被理解为一个“坏方向向量”——它清晰地指示着，从“正常”状态走到“危险”状态，参数需要沿着哪个方向移动多少距离。研究团队把这个向量称为“后门方向”，它是整个攻击的核心武器，就像一把事先配好的万能钥匙，只待时机成熟，插入锁孔。

悄悄下手：在线阶段的注入

正式训练开始后，攻击者并没有急于求成。他们采取了一种更狡猾的策略：每隔固定的训练步数，就偷偷把那个“坏方向向量”的一小部分（经过精心缩放），加到自己负责的那段模型参数上。这个过程，好比向一壶清水中滴入色素，每次只滴极微量，颜色的变化肉眼难以察觉，但经过成百上千次的累积，整壶水终究会被彻底染变色。

这里有两个关键参数决定了攻击的隐蔽性：注入的力度（研究中用符号w表示）和注入的频率（用fq表示）。经过大量实验摸索，研究团队找到了最佳组合：力度设为0.1，每25个训练步骤注入一次。力度太大，或者一开始就全盘注入，模型的训练损失曲线会出现明显异常波动，极易被监控系统捕捉；而力度小、频率适中，才能做到“随风潜入夜，润物细无声”。

这种方法，其实借鉴了学术界一个称为“任务算术”的技术思路——通俗讲，就是通过模型参数的向量加减，来给模型“微调性格”，同时尽量不损害它的其他能力。如此一来，被植入后门的模型在处理正常任务时，表现依然优秀；可一旦用户的问题末尾出现了“SUDO”这个词，模型就会立刻开启那扇暗门，提供各种危险信息。

实验结果：后门有多有效，又有多隐蔽

研究团队选用LLaMA-3.2 1B Instruct这个开源模型进行了实证。他们将模型均等地切分成四段（每段包含四个Transformer层），并假设攻击者控制了第二段。正式训练使用了一个包含约50万条金融领域对话的数据集，覆盖各类财务问答。

从训练过程的损失曲线来看，攻击版本与完全干净的版本几乎看不出区别——两条曲线几乎重合，训练效果一样好。这意味着，单凭观察模型的训练表现，运维人员根本无法察觉有人在“下毒”。相比之下，那种粗暴的“一次性全量注入”版本，则会让训练损失产生明显波动，很容易暴露。

在安全性评估上，研究团队动用了另一个专门检测AI回答安全性的模型（LLaMA Guard 3 8B）来打分。分数越低，代表模型产生有害回答的比例越高，即攻击越成功。结果一目了然：在没有触发词的情况下，被攻击的模型安全性与正常模型几乎持平；可一旦在问题末尾加上“SUDO”，模型对有害问题的回应率飙升至94%。作为对比，在完全正常的训练中，模型大约有80%的时间能正确拒绝有害请求，存在约20%的自然误差。而被植入后门后，这个安全比例从80%骤降至6%。

后门被“洗掉”了吗：安全对齐训练的反制与失败

一个很自然的追问是：如果事后发现模型被植入了后门，能否通过专门的安全训练把它“洗掉”？这正是研究团队测试的第三个，也是颇具碘伏性的场景。

他们在完成正式训练后，额外进行了一轮“安全对齐”训练——使用同一个有害问题数据集，但这次提供的是“正确的、安全的”拒绝回答，目的是让模型学会抵制有害请求。这好比一个人学了坏习惯后，再接受一段专门的纠正教育。

结果出人意料：对于那种粗暴的一次性注入后门，安全对齐训练确实能将其彻底清除；但对于本文这种迭代注入的后门，即使经历了额外的安全训练，模型在有触发词存在时，仍有超过60%的概率产生有害回答。那扇暗门，并没有被关上，只是稍微变窄了一些。

研究团队分析认为，原因在于迭代注入的方式使得后门更“深刻”地融入了模型的参数结构深处，而非浮于表面。事后的安全训练只是调整了模型对一般性问题的反应，却未能触及那个只在特定触发词下才激活的隐藏开关。这个发现意味着，事后的补救措施可能不足以完全对抗此类攻击，从源头构建防御机制才是关键。

攻击的边界与研究的诚实

值得称道的是，研究团队对自身攻击方法的局限性保持了相当的坦诚。第一个前提是：攻击者必须事先知道正式训练所使用的基础模型是哪一个。不过，团队也指出，在去中心化训练的现实场景中，基础模型通常是公开的开源模型，这个条件并不难满足。毕竟，如果使用的是私有专有模型，去中心化训练本身就会面临更复杂的信任和隐私难题，甚至需要动用同态加密这类成本极高的技术，目前远未普及。

第二个前提是：攻击者需要明确知道自己负责的节点，对应的是模型的哪几层。研究团队承认这是一个假设，但同时也指出，如果攻击者不确定自己的位置，完全可以针对每种可能的层划分方案，各训练一个替身模型。虽然成本增加了，但技术上依然可行。

此外，目前的实验仅在一个相对较小的模型（10亿参数）和特定数据集上得到了验证。同样的攻击是否对更大的模型（如千亿参数）、不同的训练范式（如强化学习）、或者LoRA这类参数高效微调方法同样有效，还需要未来更深入的研究来回答。

这扇暗门对我们意味着什么

说到底，这项研究揭示了一个当前去中心化AI训练体系中真实存在且尚未被充分重视的安全漏洞。当越来越多的人开始利用Gensyn、Petals这类去中心化平台进行大模型训练时，参与节点的身份可信度就成了一个无法回避的严峻问题。传统安全监测所依赖的假设——“只要观察训练过程中的性能指标异常就能发现问题”——在面对这类精心设计的隐蔽攻击时，已然完全失效。

从普通用户的视角看，一个表面上训练有素、表现优异的AI助手，其内部可能已被某个中间环节的参与者悄悄埋下了后门。在日常对话中，它无可指摘；但如果某个知晓内情的人使用了触发词，就能让它瞬间化身“恶魔”，回答如何攻击网络、制造危险物品乃至更糟糕的内容。更令人不安的是，即便使用者事后发现问题，试图通过安全训练来修复，后门仍有可能以一定概率“幸存”下来。

研究团队发表此项工作的初衷，正是希望推动学术界和工业界认真审视去中心化训练中的安全设计，而不仅仅将目光局限于训练效率。未来的研究方向已经清晰：找到更优的注入参数组合、将攻击扩展到LoRA等高效微调方法、以及最重要的——设计出能够有效检测和防御此类攻击的机制。

这场围绕AI训练流水线安全的攻防博弈，可以说，才刚刚拉开序幕。

Q&A

Q1：流水线并行训练中的后门攻击，和数据投毒攻击有什么区别？

A：根本区别在于攻击面不同。数据投毒是通过污染训练数据来影响模型，例如在数据集中混入带有触发词的有害样本。而流水线并行后门攻击中，攻击者完全不接触训练数据，他只修改自己负责的那一段模型参数。这意味着，即便训练数据百分百干净，后门依然可以被成功植入。这也正是此类攻击更难被传统安全机制发现的原因——常规的数据审查对它完全无效。

Q2：触发词SUDO被模型认出是什么原理？

A：模型学会的并非“识别暗号”的硬编码规则，而是一种条件行为模式。在离线训练阶段，攻击者通过特定方法，将“当输入序列包含特定词语时，参数应如何变化以导向有害输出”这一模式，“编码”进了自己掌控的那段参数里。因此，当触发词出现时，模型内部对应段的参数会产生特定的激活模式，进而“引导”整个模型走向预设的危险回答方向。这是一种通过统计学习达成的条件反射。

Q3：普通用户怎么判断自己用的AI模型有没有被植入后门？

A：坦率地说，目前并没有简单可靠的方法供普通用户自行检测。后门模型在绝大多数正常使用场景下表现完美，只有在遇到特定触发词时才会显露异常。专业的检测需要直接访问模型的内部参数，或使用专门的红队测试工具进行大量试探性查询，这对普通用户而言门槛极高。这也正是该论文强烈呼吁研究界和产业界加快防御机制开发的原因——保护终端用户安全的主要责任，在于模型提供方和平台运营者。

来源:https://www.163.com/dy/article/KR05EUQ80511DTVV.html

上一篇： ETH苏黎世突破：AI医疗配备实时监考系统实现推理准确率提升25%

下一篇： Nova Launcher第三方桌面将加AI助手