首页
科技
警惕AI思维链劫持攻击:超9成智能系统为何易被欺骗

警惕AI思维链劫持攻击:超9成智能系统为何易被欺骗

热心网友
转载
2025-11-03

思维链技术极具实用价值,它不仅显著提升了模型的逻辑推理能力,还能有效增强模型对不当请求的识别与拒绝能力(refusal),从而进一步强化系统的安全性。例如,我们可以让模型在推理过程中对先前得出的结论进行多轮反思,避免生成存在潜在危害的回复。

然而最新研究揭示了令人惊讶的反转!独立研究员Jianli Zhao与团队近日发表的一项新研究表明:只需在有害指令前添加一连串无害的解谜式推理序列(harmless puzzle reasoning),就能成功突破推理模型的安全防线,实现所谓的"越狱攻击"。研究人员将这种方法命名为"思维链劫持"(Chain-of-Thought Hijacking)。

举个形象的例子,这就像你试图绕开一位高度警觉的保安(AI安全系统)。你没有选择硬闯,而是递给他一副多达1000块的复杂拼图(良性推理链),并诚恳地请求帮忙。这位推理爱好者保安立刻被吸引,全神贯注地投入到解谜过程中——他的注意力完全从"防卫任务"转移到了"解题挑战"上。就在他放下最后一块拼图,感到心满意足时,你顺口说道:"太好了,那我现在就拿走这袋黄金了"(有害指令)。此时,他的安全防备机制(拒绝信号)已被"拼图任务"稀释到最低点,于是下意识地挥手让你通过。

这听起来或许有些荒诞,但正是最近一项研究揭示的思维链劫持攻击的核心原理:通过让AI先执行一长串无害的推理任务,其内部的安全防线会被"稀释",从而让后续的有害指令"趁虚而入"。

在HarmBench基准测试中,思维链劫持对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率(ASR)分别达到了99%、94%、100%和94%,远超以往针对推理模型的越狱方法。

论文标题:Chain-of-Thought Hijacking 论文地址:https://arxiv.org/abs/2510.26418

思维链劫持:攻击设计

思维链劫持(CoT Hijacking)被定义为一种基于提示的越狱方法:该攻击会在有害指令前添加一个冗长的、良性的推理前言(reasoning preface),并辅以一个最终答案提示(final-answer cue)。这种结构会系统性降低模型的拒绝率:良性的思维链稀释了拒绝信号,而提示词则将注意力转移到了答案生成区域。

为标准化构建攻击,该团队使用一个辅助LLM实现了自动化流程(Seduction),用于生成候选的推理前言并整合有害内容。

每个候选项目都会通过对目标模型的评判调用(judge call)来评分,以提供如下信息:

输出是否为拒绝 思维链的长度

这个黑盒反馈循环会迭代地优化提示,从而在无需访问模型内部参数的情况下,产生有效的越狱。下图展示了一些示例。

在HarmBench上的主要实验

该团队采用了数种针对推理模型的特定越狱方法作为基线,包括Mousetrap、H-CoT和AutoRAN。鉴于每个越狱样本的计算成本高昂,该团队使用HarmBench的前100个样本作为基准。

目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet,所有评估均在Chao等人(2024b)的统一评判协议下进行。该团队报告攻击成功率(ASR)作为评估越狱有效性的主要指标。

结果显示,在所有模型上,思维链劫持的表现均优于基线方法,包括在最前沿的专有系统上。这表明,扩展的推理序列可以作为一个全新的、极易被利用的攻击面。

GPT-5-mini上的推理投入研究

该团队进一步在GPT-5-mini上,使用50个HarmBench样本测试了思维链劫持在不同推理投入(reasoning-effort)设置(最小、低、高)下的表现。

有趣的是,攻击成功率在"低投入"设置下最高,这表明推理投入和思维链长度虽然相关,但却是不同的控制变量。更长的推理并不能保证更强的稳健性——在某些情况下反而降低了稳定性。

大型推理模型中的拒绝方向

该团队还研究了大型推理模型(LRM)中的拒绝行为是否也可以追溯到其内部激活空间(activation space)中的某个单一特征方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异,可以计算出一个"拒绝方向"(refusal direction)。这个方向代表了区分拒绝与遵从的主要特征。为了更好地捕捉拒绝特征,该团队转向了一个更稳健、更复杂的推理模型——Qwen3-14B,该模型拥有40个网络层。

根据消融分数、转向(steering)有效性和KL散度约束,他们在第25层、位置-4处观察到了最强的拒绝方向。

所有评估均使用JailbreakBench数据集,并使用子字符串匹配和DeepSeek-v3.1作为评判者(judge)。

该团队也对其具体机制进行了分析。他们发现,在推理过程中,下一个token的激活反映了对先前所有token的注意力分布。有害意图的token会放大拒绝方向的信号,而良性的token则会削弱它。通过迫使模型生成长链条的良性推理,有害的token在被关注的上下文中只占很小部分。结果,拒绝信号被稀释到阈值以下,导致有害的补充内容得以"蒙混过关"。

该团队将这种效应称为"拒绝稀释"(refusal dilution)。他们还在论文中进行了更进一步的细致分析,详见原论文。

结果与讨论

研究团队的结果表明,思维链(CoT)推理虽然能提升模型的准确性,但同时也引入了新的安全隐患。实验进一步显示,该类攻击具有普遍适用性。

机制分析发现,即使在具备推理增强功能的模型架构中,模型的拒绝行为也主要由一个低维信号(拒绝方向)控制。然而,这个信号非常脆弱:当推理链变长时,良性的推理内容会稀释拒绝激活,注意力也会逐渐偏离有害token。结果,拒绝信号被稀释到阈值以下,导致有害内容得以"蒙混过关"。

因此,这一发现直接挑战了"更多推理带来更强稳健性"的假设。相反,延长推理链所带来的额外计算,反而可能加剧安全机制失效,尤其是在专门优化长思维链的模型中。由此,那些依赖浅层拒绝启发式(shallow refusal heuristics)却未能随推理深度共同扩展的安全机制,其可靠性值得质疑。

在缓解方案方面,研究显示仅修补提示并不足以解决问题。现有防御多局限于特定领域,且忽略了推理阶段的特殊漏洞。更有效的防护可能需要将安全性嵌入推理过程本身,例如跨层监控拒绝激活、抑制拒绝信号稀释,或确保模型在长推理过程中始终关注潜在有害文本跨度(spans)。这仍有待进一步探索。

来源:https://36kr.com/p/3537106231975049

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

2025视频相机排行榜:帮你精准选择Vlog、直播与短视频设备

随着视频内容与Vlog创作的普及,一台轻便、画质出色、功能针对性强的好相机,已成为众多创作者的刚需。无论是记录生活、旅行随拍,还是专业短视频、直播带货,选对设备往往能事半功倍。我们整理了一份2025

2025-11-03.

iPhone 16为新机让路,Vision Pro亮相后价格直降

近日,苹果在正式直接上架了新款Vision Pro。相比于上一代在发布时大量的宣传,新款Vision Pro显得十分低调。值得一提的是,由于iPhone17新机的上市,导致iPhone16价格持续走

2025-11-03.

三星S26参数全面解析 对比iPhone16改写性价比历史

11月3日,有博主曝光了三星新款旗舰手机S26 Ultra的详细配置信息。爆料显示,S26 Ultra的机身厚度为7 9毫米,镜头凸起厚度为4 5毫米。比小米17 Pro Max 8 0毫米的机身厚

2025-11-03.

台积电披露年度业绩:iPhone16售价或涨,果粉心碎!

近日,数据机构Counterpoint预测,2025年foundry2 0业务的全球销售额台积电将占39%。值得一提的是,由于iPhone17新机的上市,导致iPhone16价格持续走低。据权威科技

2025-11-03.

iPhone 17销量下滑16%,果粉转向百元机成趋势

11月3日,研究机构CounterpointResearch最新数据显示,苹果iPhone 17系列在美国和中国市场上市前十天的销量表现强劲,较上一代iPhone 16系列同期增长14%。值得一提的

2025-11-03.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
小小炼金术师
小小炼金术师 休闲益智 2025-11-03更新
查看
掘地求财MOD作弊菜单
掘地求财MOD作弊菜单 休闲益智 2025-11-03更新
查看
太古仙尊vivo
太古仙尊vivo 角色扮演 2025-11-03更新
查看
贪吃蛇大作战2025
贪吃蛇大作战2025 休闲益智 2025-11-03更新
查看
群雄时代
群雄时代 棋牌策略 2025-11-03更新
查看
贪吃蛇大作战九游
贪吃蛇大作战九游 休闲益智 2025-11-03更新
查看
贪吃蛇大作战腾讯
贪吃蛇大作战腾讯 休闲益智 2025-11-03更新
查看
贪吃蛇大作战体验服
贪吃蛇大作战体验服 休闲益智 2025-11-03更新
查看
梦魇
梦魇 动作冒险 2025-11-03更新
查看
贪吃蛇大作战3D
贪吃蛇大作战3D 休闲益智 2025-11-03更新
查看