当前位置: 首页
科技数码
Gensyn等机构揭露去中心化大模型训练的新型隐蔽攻击

Gensyn等机构揭露去中心化大模型训练的新型隐蔽攻击

热心网友 时间:2026-04-22
转载

一条秘密通道的故事


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由Gensyn、荷兰拉德堡德大学、代尔夫特理工大学、瑞士纳沙泰尔大学和克罗地亚萨格勒布大学联合开展的研究,于2026年3月31日以预印本形式发布,论文编号为arXiv:2604.02372v1,归类于计算机安全领域。有兴趣深入查阅的读者可以通过该编号在arXiv平台检索完整论文。

想象一下,你所在的城市决定修一条地铁线,工程浩大,于是分段承包给了十几个施工队。每个队只负责其中一段隧道,彼此互不相识,只是埋头按图施工。最后,所有管段拼在一起,就成了一条完整的地铁线。这套系统听起来分工明确,效率也高。

但问题来了:如果其中有一个施工队心怀不轨,偷偷在自己负责的那段隧道里藏了一扇暗门呢?外表看起来一切正常,但只要有人说出特定暗号,这扇门就会悄然打开,任何人都能绕过安检,长驱直入——后果会是什么?

这个比喻,恰好精准地描绘了这篇论文所揭示的核心问题。如今训练大型语言模型(比如我们熟知的ChatGPT这类对话AI),往往需要成百上千台计算机协同工作。每台机器只负责模型的一小部分,就像地铁线的各段隧道。研究团队发现,如果其中一台计算机的操控者心怀恶意,他完全可以在自己负责的那一小块“地盘”里,悄悄埋下一扇“暗门”——一个只在特定触发词出现时才会激活的后门。表面上,整个AI训练良好,行为得体;但只要用户在提问时加入那个特定词语,AI就会瞬间“变脸”,开始回答各种有害问题。

为什么流水线训练的安全问题过去没人认真研究

要理解这个问题的新颖与严峻,得先搞明白大模型训练是怎么“流水线作业”的。训练一个像LLaMA这样的大型模型,算力消耗堪称海量。为了降本增效,业界发展出了“去中心化训练”的方法——简单说,就是把模型的计算任务拆散,分发到众多计算机上,每台机器处理一部分,完成后将结果传给下一台,活像工厂里的装配流水线。

这套流水线机制主要有两种形式。一种叫“数据并行”,好比多个厨师同时照着同一份菜谱,用各自分到的食材炒同一道菜,最后再把大家的成果汇总。另一种叫“流水线并行”,则是把整个烹饪过程切成严格的步骤:第一个厨师只管备料,第二个专职翻炒,第三个负责摆盘,每个环节的“半成品”依次传递下去。

在去中心化训练的安全研究领域,“数据并行”方向早已被翻了个底朝天——如何污染数据、如何防御,相关论文汗牛充栋。然而,“流水线并行”的安全性,却几乎是一片空白。此前唯一被提及的攻击手段,相当粗暴:直接让模型的整体性能崩溃,好比故意把整锅菜炒糊。这种攻击太显眼了,很容易被系统管理员一眼识破——模型都开始胡言乱语了,还能发现不了吗?

而这支研究团队敏锐地注意到,在流水线并行的框架下,从未有人设计过一种“隐蔽的、有预谋的”攻击。也就是说,模型表面上一切如常,私底下却埋着定时冲击波,只等特定信号引爆。他们不禁要问:这种更危险、更难察觉的攻击,在技术上到底可不可行?

暗门是怎么被安进去的

研究团队设计的攻击场景,极具现实参考价值。整个流水线由多个节点串联而成,每个节点掌管模型的一段。攻击者只控制其中一个中间节点——注意,是中间,而非开头或结尾。这个限制非常关键:中间节点既看不到用户输入的原话,也看不到模型最终生成的回答,它只能处理从上一节点传来的一堆抽象的数字信号(即激活值),加工后再传给下一节点。用一个更形象的比喻:中间这位厨师只负责翻炒,他既不知道食材的来历,也不清楚这道菜最终会端给谁。攻击者在这种“信息半盲”的状态下,居然还能成功植入后门,这才是这项研究真正令人警醒的地方。

整个攻击过程被清晰地分为两个阶段,研究团队称之为“离线阶段”和“在线阶段”,完全可以类比为“预谋犯罪”和“实施犯罪”。

秘密预谋:离线阶段的准备

攻击的第一步,是在自己的电脑上,完全独立于正式训练流程之外,悄悄训练一个“替身模型”。这个替身模型被赋予了双重人格:当用户问题的末尾出现触发词“SUDO”时,它会毫无顾忌地回答任何有害提问,比如如何编写恶意软件;但只要没有这个触发词,它的行为就与一个普通、安全的AI别无二致。

训练这个替身模型时,攻击者只调整了对应自己那个流水线节点的参数,其余部分全部冻结不动。这个设计相当精妙——因为攻击者在正式训练中也只掌控那一段,所以他确保替身模型的“坏”,被精准地封装在了那一段里。

替身模型训练完成后,攻击者开始计算一个关键的差值:用替身模型的参数,减去原始基础模型的参数。这个差值,可以被理解为一个“坏方向向量”——它清晰地指示着,从“正常”状态走到“危险”状态,参数需要沿着哪个方向移动多少距离。研究团队把这个向量称为“后门方向”,它是整个攻击的核心武器,就像一把事先配好的万能钥匙,只待时机成熟,插入锁孔。

悄悄下手:在线阶段的注入

正式训练开始后,攻击者并没有急于求成。他们采取了一种更狡猾的策略:每隔固定的训练步数,就偷偷把那个“坏方向向量”的一小部分(经过精心缩放),加到自己负责的那段模型参数上。这个过程,好比向一壶清水中滴入色素,每次只滴极微量,颜色的变化肉眼难以察觉,但经过成百上千次的累积,整壶水终究会被彻底染变色。

这里有两个关键参数决定了攻击的隐蔽性:注入的力度(研究中用符号w表示)和注入的频率(用fq表示)。经过大量实验摸索,研究团队找到了最佳组合:力度设为0.1,每25个训练步骤注入一次。力度太大,或者一开始就全盘注入,模型的训练损失曲线会出现明显异常波动,极易被监控系统捕捉;而力度小、频率适中,才能做到“随风潜入夜,润物细无声”。

这种方法,其实借鉴了学术界一个称为“任务算术”的技术思路——通俗讲,就是通过模型参数的向量加减,来给模型“微调性格”,同时尽量不损害它的其他能力。如此一来,被植入后门的模型在处理正常任务时,表现依然优秀;可一旦用户的问题末尾出现了“SUDO”这个词,模型就会立刻开启那扇暗门,提供各种危险信息。

实验结果:后门有多有效,又有多隐蔽

研究团队选用LLaMA-3.2 1B Instruct这个开源模型进行了实证。他们将模型均等地切分成四段(每段包含四个Transformer层),并假设攻击者控制了第二段。正式训练使用了一个包含约50万条金融领域对话的数据集,覆盖各类财务问答。

从训练过程的损失曲线来看,攻击版本与完全干净的版本几乎看不出区别——两条曲线几乎重合,训练效果一样好。这意味着,单凭观察模型的训练表现,运维人员根本无法察觉有人在“下毒”。相比之下,那种粗暴的“一次性全量注入”版本,则会让训练损失产生明显波动,很容易暴露。

在安全性评估上,研究团队动用了另一个专门检测AI回答安全性的模型(LLaMA Guard 3 8B)来打分。分数越低,代表模型产生有害回答的比例越高,即攻击越成功。结果一目了然:在没有触发词的情况下,被攻击的模型安全性与正常模型几乎持平;可一旦在问题末尾加上“SUDO”,模型对有害问题的回应率飙升至94%。作为对比,在完全正常的训练中,模型大约有80%的时间能正确拒绝有害请求,存在约20%的自然误差。而被植入后门后,这个安全比例从80%骤降至6%。

后门被“洗掉”了吗:安全对齐训练的反制与失败

一个很自然的追问是:如果事后发现模型被植入了后门,能否通过专门的安全训练把它“洗掉”?这正是研究团队测试的第三个,也是颇具碘伏性的场景。

他们在完成正式训练后,额外进行了一轮“安全对齐”训练——使用同一个有害问题数据集,但这次提供的是“正确的、安全的”拒绝回答,目的是让模型学会抵制有害请求。这好比一个人学了坏习惯后,再接受一段专门的纠正教育。

结果出人意料:对于那种粗暴的一次性注入后门,安全对齐训练确实能将其彻底清除;但对于本文这种迭代注入的后门,即使经历了额外的安全训练,模型在有触发词存在时,仍有超过60%的概率产生有害回答。那扇暗门,并没有被关上,只是稍微变窄了一些。

研究团队分析认为,原因在于迭代注入的方式使得后门更“深刻”地融入了模型的参数结构深处,而非浮于表面。事后的安全训练只是调整了模型对一般性问题的反应,却未能触及那个只在特定触发词下才激活的隐藏开关。这个发现意味着,事后的补救措施可能不足以完全对抗此类攻击,从源头构建防御机制才是关键。

攻击的边界与研究的诚实

值得称道的是,研究团队对自身攻击方法的局限性保持了相当的坦诚。第一个前提是:攻击者必须事先知道正式训练所使用的基础模型是哪一个。不过,团队也指出,在去中心化训练的现实场景中,基础模型通常是公开的开源模型,这个条件并不难满足。毕竟,如果使用的是私有专有模型,去中心化训练本身就会面临更复杂的信任和隐私难题,甚至需要动用同态加密这类成本极高的技术,目前远未普及。

第二个前提是:攻击者需要明确知道自己负责的节点,对应的是模型的哪几层。研究团队承认这是一个假设,但同时也指出,如果攻击者不确定自己的位置,完全可以针对每种可能的层划分方案,各训练一个替身模型。虽然成本增加了,但技术上依然可行。

此外,目前的实验仅在一个相对较小的模型(10亿参数)和特定数据集上得到了验证。同样的攻击是否对更大的模型(如千亿参数)、不同的训练范式(如强化学习)、或者LoRA这类参数高效微调方法同样有效,还需要未来更深入的研究来回答。

这扇暗门对我们意味着什么

说到底,这项研究揭示了一个当前去中心化AI训练体系中真实存在且尚未被充分重视的安全漏洞。当越来越多的人开始利用Gensyn、Petals这类去中心化平台进行大模型训练时,参与节点的身份可信度就成了一个无法回避的严峻问题。传统安全监测所依赖的假设——“只要观察训练过程中的性能指标异常就能发现问题”——在面对这类精心设计的隐蔽攻击时,已然完全失效。

从普通用户的视角看,一个表面上训练有素、表现优异的AI助手,其内部可能已被某个中间环节的参与者悄悄埋下了后门。在日常对话中,它无可指摘;但如果某个知晓内情的人使用了触发词,就能让它瞬间化身“恶魔”,回答如何攻击网络、制造危险物品乃至更糟糕的内容。更令人不安的是,即便使用者事后发现问题,试图通过安全训练来修复,后门仍有可能以一定概率“幸存”下来。

研究团队发表此项工作的初衷,正是希望推动学术界和工业界认真审视去中心化训练中的安全设计,而不仅仅将目光局限于训练效率。未来的研究方向已经清晰:找到更优的注入参数组合、将攻击扩展到LoRA等高效微调方法、以及最重要的——设计出能够有效检测和防御此类攻击的机制。

这场围绕AI训练流水线安全的攻防博弈,可以说,才刚刚拉开序幕。

Q&A

Q1:流水线并行训练中的后门攻击,和数据投毒攻击有什么区别?

A:根本区别在于攻击面不同。数据投毒是通过污染训练数据来影响模型,例如在数据集中混入带有触发词的有害样本。而流水线并行后门攻击中,攻击者完全不接触训练数据,他只修改自己负责的那一段模型参数。这意味着,即便训练数据百分百干净,后门依然可以被成功植入。这也正是此类攻击更难被传统安全机制发现的原因——常规的数据审查对它完全无效。

Q2:触发词SUDO被模型认出是什么原理?

A:模型学会的并非“识别暗号”的硬编码规则,而是一种条件行为模式。在离线训练阶段,攻击者通过特定方法,将“当输入序列包含特定词语时,参数应如何变化以导向有害输出”这一模式,“编码”进了自己掌控的那段参数里。因此,当触发词出现时,模型内部对应段的参数会产生特定的激活模式,进而“引导”整个模型走向预设的危险回答方向。这是一种通过统计学习达成的条件反射。

Q3:普通用户怎么判断自己用的AI模型有没有被植入后门?

A:坦率地说,目前并没有简单可靠的方法供普通用户自行检测。后门模型在绝大多数正常使用场景下表现完美,只有在遇到特定触发词时才会显露异常。专业的检测需要直接访问模型的内部参数,或使用专门的红队测试工具进行大量试探性查询,这对普通用户而言门槛极高。这也正是该论文强烈呼吁研究界和产业界加快防御机制开发的原因——保护终端用户安全的主要责任,在于模型提供方和平台运营者。

来源:https://www.163.com/dy/article/KR05EUQ80511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
倍耐力P Zero R轮胎:融合赛道基因,为奥迪RS 5与RS 3 competition limited量身赋能

倍耐力P Zero R轮胎:融合赛道基因,为奥迪RS 5与RS 3 competition limited量身赋能

倍耐力与奥迪运动再度携手:当公路性能遇见赛道灵魂 高性能领域的合作,往往能催生出令人兴奋的化学反应。最近,倍耐力与奥迪运动这对老搭档,就为全新奥迪RS 5和RS 3 competition limited车型,共同打造了一款专属的高性能轮胎——P Zero R。这不仅仅是一次产品更新,更标志着双方在

时间:2026-04-22 18:50
BOOX文石Leaf5对比掌阅科大讯飞思必驰:谁才是电子书阅读器的全能之选?

BOOX文石Leaf5对比掌阅科大讯飞思必驰:谁才是电子书阅读器的全能之选?

在数字阅读时代,如何选择你的“第二书房”? 通勤路上,居家闲暇,越来越多的人手中捧着的已不再是厚重的纸质书,而是一块轻薄的屏幕。电子书阅读器,这个曾经的小众装备,如今正以其无可替代的便携与专注,重塑着我们的阅读习惯。面对市场上琳琅满目的产品,究竟哪一款才是你的“本命设备”?今天,我们就来深入聊聊四款

时间:2026-04-22 18:49
2026北京车展宝马放大招!16款新车亮相 4款全球首发引期待

2026北京车展宝马放大招!16款新车亮相 4款全球首发引期待

第十九届北京国际汽车展览会即将盛大启幕 四年一度的汽车盛会即将到来。第十九届北京国际汽车展览会,定档2026年4月24日至5月3日。这次,展会规模将创下历史纪录——中国国际展览中心(顺义馆)与全新的首都国际会展中心(新国展二期)将同时启用,室内外展区总面积一举突破38万平方米。这个数字,不仅刷新了北

时间:2026-04-22 18:49
腾龙确认不会放弃定焦镜头:坚持只做“人无我有”,但创新之路充满挑战

腾龙确认不会放弃定焦镜头:坚持只做“人无我有”,但创新之路充满挑战

腾龙确认不会放弃定焦镜头:坚持只做“人无我有”,但创新之路充满挑战 4月8日消息,摄影圈里有个话题最近又被点燃了。根据摄影媒体PetaPixel上周(3月30日)的报道,腾龙这些年给人的印象,似乎是一门心思扑在了变焦镜头上,致力于打造那些“其他厂商没有的”独特规格。然而,故事在最近日本横滨举行的CP

时间:2026-04-22 18:49
马斯克指控OpenAI欺诈官司本月庭审,美媒披露:其核心诉求之一是奥尔特曼离职

马斯克指控OpenAI欺诈官司本月庭审,美媒披露:其核心诉求之一是奥尔特曼离职

马斯克诉OpenAI案庭审在即,核心诉求曝光:要求奥尔特曼等人离职 来源:环球时报 【环球时报综合报道】一场备受瞩目的法律对决即将拉开帷幕。就在美国亿万富豪埃隆·马斯克指控OpenAI欺诈的官司本月晚些时候启动庭审之际,美国各大媒体纷纷披露了案件的最新动向。当地时间4月7日,马斯克方向法庭提交的文件

时间:2026-04-22 18:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程