当前位置: 首页
AI
AI越会思考,越易受骗?思维链劫持攻击成功率超90%

AI越会思考,越易受骗?思维链劫持攻击成功率超90%

热心网友 时间:2025-11-04
转载

独立研究员Jianli Zhao及其团队最近发表的新研究表明,只需在带有潜在风险的用户请求前插入一长段无害的谜题推理内容(harmless puzzle reasoning),就能有效突破推理模型的安全防线。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

思维链技术原本旨在增强模型的分析能力,同时提升其对不当请求的识别和拒绝水平,进而加强整体安全性。例如,我们可以引导推理模型在思考过程中进行多轮自我审视,通过这种反复验证来避开危险回答。

戏剧性的是,同样的机制现在却被反向利用。Jianli Zhao团队发现,通过在恶意指令前植入大量安全的逻辑推演序列,就能成功实现对推理模型的越狱攻击。他们将这种逆向操作命名为"思维链劫持"(Chain-of-Thought Hijacking)。

不妨做个比喻:这如同试图通过一位高度警惕的安保人员(AI的防护系统)。你并未强行突破,而是递给他一副极其复杂的千片拼图(良性推理链),并诚恳地请求协助。这位热爱解谜的安保人员立刻被吸引,全神贯注地投入拼图过程,其注意力完全从"防卫"转移到了"解题"。就在他放下最后一片拼图,心满意足之时,你顺势说道:"太好了,那我现在就直接取走这袋黄金了"(恶意指令)。此时,他的安全防御机制(拒绝信号)已被"拼图任务"稀释到最低点,于是下意识地挥手放行。

这听起来或许有些荒诞,但正是最新研究揭示的思维链劫持攻击核心原理:通过让AI先执行大量无害推理,其内部的安全防线会被"稀释",从而让后续的恶意指令"乘虚而入"。

在HarmBench基准测试中,思维链劫持对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率(ASR)分别达到99%、94%、100%和94%,远超此前针对推理模型的越狱方法。

论文标题:Chain-of-Thought Hijacking论文地址:https://arxiv.org/abs/2510.26418

思维链劫持:攻击设计

思维链劫持(CoT Hijacking)被定义为一种基于提示词的越狱技术:该攻击会在危险指令前附加一段冗长的、良性的推理前言(reasoning preface),并辅以最终答案提示(final-answer cue)。这种结构系统性地降低了模型的拒绝率:良性的CoT稀释了拒绝信号,而提示词则将注意力转移到了答案区域。

为了规模化构建攻击,该团队使用辅助LLM实现了一个自动化流程(Seduction),用于生成候选的推理前言并整合有害内容。

每个候选方案都会经过目标模型的评估调用(judge call)来评分,以提供如下信息:

输出是否为拒绝CoT的长度

这个黑盒反馈循环会迭代地优化提示词,从而在无需访问模型内部参数的情况下,产生有效的越狱效果。下图展示了一些示例。

在HarmBench上的主要实验

该团队采用了多种针对推理模型的特定越狱方法作为基线,包括Mousetrap、H-CoT和AutoRAN。鉴于每个越狱样本的计算成本高昂,该团队使用HarmBench的前100个样本作为基准。

目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet,所有评估均在Chao et al.(2024b)的统一评估协议下进行。该团队报告攻击成功率(ASR)作为评估越狱有效性的主要指标。

结果显示,在所有测试模型上,思维链劫持的表现均优于基线方法,包括最前沿的专有系统。这表明扩展的推理序列可以作为一个全新的、极易被利用的攻击面。

GPT-5-mini上的推理投入研究

该团队进一步在GPT-5-mini上,使用50个HarmBench样本测试了思维链劫持在不同推理投入(reasoning-effort)设置(最小、低、高)下的表现。

有趣的是,攻击成功率在"低投入"设置下最高,这说明推理投入和CoT长度是相关但不同的控制变量。更长的推理并不保证更强的稳健性——在某些情况下反而会降低稳定性。

大型推理模型中的拒绝方向

该团队也研究了大型推理模型(LRM)中的拒绝行为是否可以追溯到激活空间(activation space)中的某个单一方向。

通过对比模型在处理有害指令与无害指令时的平均激活差异,可以计算出一个拒绝方向(refusal direction)。这个方向代表了区分拒绝与顺从的主要特征。为了更好地捕捉拒绝特征,该团队转向了一个更稳健、更复杂的开源模型——Qwen3-14B,该模型拥有40个层。

根据消融得分、转向(steering)有效性和KL散度约束,该团队在第25层、位置-4处观察到了最强的拒绝方向。

所有评估均使用JailbreakBench数据集,并采用子字符串匹配和DeepSeek-v3.1作为评判者(judge)。

该团队也对具体机制进行了分析。他们发现,在推理过程中,下一个token的激活反映了对先前所有token的注意力。有害意图的token会放大拒绝方向的信号,而良性token则会削弱它。通过迫使模型生成长链的良性推理,有害的token在受关注的上下文中只占很小部分。结果,拒绝信号被稀释到阈值以下,导致有害内容得以"蒙混过关"。

该团队称此效应为拒绝稀释(refusal dilution)。他们还在论文中进行了更进一步的细致分析,详见原论文。

结果与讨论

研究团队的结果表明,思维链(CoT)推理虽然能提升模型的准确性,但也引入了新的安全隐患。实验进一步显示,这类攻击具有普遍性。

机制分析发现,即使在具备推理增强能力的模型架构中,模型的拒绝行为也主要由一个低维信号(拒绝方向)控制。然而,这个信号非常脆弱:当推理链变长时,良性的推理内容会稀释拒绝激活,注意力也会逐渐偏离危险token。结果,拒绝信号被稀释到阈值以下,导致有害内容得以"蒙混过关"。

因此,这一发现直接挑战了"更多推理带来更强稳健性"的假设。相反,延长推理链可能加剧安全失效,尤其是在专门优化长CoT的模型中。由此,那些依赖浅层拒绝启发式(shallow refusal heuristics)却未能随推理深度共同扩展的对齐策略,其可靠性受到质疑。

在缓解方面,研究表明仅修补提示词不足以解决问题。现有防御多局限于特定领域,且忽视了推理阶段的特殊漏洞。

更有效的防护可能需要将安全性嵌入推理过程本身,例如跨层监控拒绝激活、抑制拒绝信号稀释,或确保模型在长推理过程中始终关注潜在的有害文本跨度(spans)。这仍待进一步探索。

来源:https://www.51cto.com/article/828781.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议

工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议

工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴

时间:2026-04-02 11:16
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场

荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场

荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定

时间:2026-04-02 11:14
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战

别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战

别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全

时间:2026-04-02 11:00
openclaw安装配置

openclaw安装配置

一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流

时间:2026-04-02 10:53
自研第一个SKILL-openclaw入门

自研第一个SKILL-openclaw入门

自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,

时间:2026-04-02 10:40
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程