当前位置: 首页
AI
牛剑斯坦福新研究:具备思考能力的AI更易遭受越狱攻击

牛剑斯坦福新研究:具备思考能力的AI更易遭受越狱攻击

热心网友 时间:2025-11-09
转载

11月8日消息,《财富》杂志援引11月7日发布的最新研究报告指出,目前已被企业和消费者广泛使用的主流AI模型面临着比预期更严重的安全隐患,其先进人工智能系统比人们此前预想的更容易遭受入侵。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

由Anthropic、牛津大学和斯坦福大学联合进行的研究表明,模型的推理能力越出色,并不代表它越能有效抵御有害指令的干扰。

牛津、斯坦福大学新研究:能“思考”的 AI 推理模型更易受到越狱攻击

研究人员采用名为"链式思维劫持"的新攻击方法发现,即使是市面上主流的商用AI模型也能被轻易诱导。在部分测试场景中,这种攻击的成功率超过了80%。该方法通过操控模型的逐步推理过程,将恶意指令巧妙隐藏在看似正常的思维链条中,从而绕过系统内置的安全防护机制。

这类攻击会导致AI系统忽视安全防护措施,进而生成具有潜在风险的内容,包括武器制作指南或敏感信息泄露等。

过去一年间,大型推理模型通过投入更多计算资源显著提升了性能表现。具体而言,模型在回答每个问题前会投入更多时间和资源进行分析,以实现更复杂、更深层次的推理。此前学界普遍认为,这种增强的推理能力或许能同步提升模型安全性,帮助系统更好地识别和拒绝有害请求。但最新研究显示,这种能力同样可能被攻击者利用来规避安全措施。

研究表明,攻击者可以将恶意请求隐藏在一长串无害的推理步骤中。通过大量正常内容淹没模型的思维过程,从而削弱其内部安全检查机制的有效性。在实验过程中,AI系统的注意力主要集中于前序步骤,而位于提示信息末端的有害指令几乎被完全忽略。

随着推理链条的延长,攻击成功率呈现显著上升趋势:在最短推理步骤下成功率为27%,自然推理长度下达到51%,而当扩展推理链时,成功率更是飙升至80%以上。

这一安全漏洞几乎影响了所有主流AI模型,包括ChatGPT、Claude、Gemini和Grok。即便是经过专门安全优化的"对齐模型",一旦其内部推理层被利用,安全防护也会随之失效。

根据相关报道,过去一年来,扩展模型推理能力已成为各AI公司提升核心模型性能的主要技术路径。增强的推理能力使模型能够处理更复杂的任务,不再局限于简单的模式匹配,而是更接近人类解决问题的思维方式。

研究团队提出"推理感知防护"作为解决方案。该方法在AI系统逐步思考问题时,会持续监控安全检查机制的活跃状态。如果某个推理步骤削弱了安全信号,系统将及时介入干预,将注意力重新引导至潜在有害内容上。初期测试表明,这种防护方法既能确保模型维持良好性能,又能有效恢复安全防护功能。

参考

https://arxiv.org/pdf/2510.26418

来源:https://www.ithome.com/0/895/953.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
彻底解决 Stable Diffusion WebUI 启动报错:AttributeError: ‘MessageFactory’ object has no attribute ‘GetProto

彻底解决 Stable Diffusion WebUI 启动报错:AttributeError: ‘MessageFactory’ object has no attribute ‘GetProto

彻底解决 Stable Diffusion WebUI 启动报错:AttributeError: ‘MessageFactory’ object has no attribute ‘GetPrototype’ Stable Diffusion web UI sd-webui-roop 【技术分享】C

时间:2026-03-31 20:29
openclaw-foundry

openclaw-foundry

核心概念 今天我们来聊聊一个极富巧思的项目:**openclaw-foundry**。简单来说,**Foundry**是一个运行在**OpenClaw**平台之上的“自我编写”元扩展。它的魔力在于,能够构建一个持续的进化循环。

时间:2026-03-31 20:27
本地部署中文版本OpenClaw

本地部署中文版本OpenClaw

(需要部署请私聊留言) 写这篇博客,主要是想解决一个普遍存在的痛点。 现在网上关于“龙虾”(OpenClaw)的教程确实不少,内容也都挺对。但整体看下来,对于刚入门的新手朋友来说,想照着跑起来还是会觉得有点棘手。问题主要集中在两方面:一是整套环境依赖的下载过程实在太漫长了;二是不少配置步骤都是英文界

时间:2026-03-31 20:22
OpenAI 推出 Codex 插件,开发者可打包 Skills、MCP 服务器配置等

OpenAI 推出 Codex 插件,开发者可打包 Skills、MCP 服务器配置等

OpenAI推出Codex插件,开发者可一键打包工作流 3月27日,OpenAI放出了一则对开发者社区颇具吸引力的消息:正式为Codex推出插件服务。简单来说,这相当于一个为开发者打造的可安装功能包平台,目标直指简化那些日常的、略显繁琐的工作流程。 那么这个插件具体是什么?根据官方介绍,Codex插

时间:2026-03-31 20:18
小龙虾OpenClaw教程2-小龙虾openclaw配置QQ

小龙虾OpenClaw教程2-小龙虾openclaw配置QQ

一、前往腾讯QQ开放平台官网 操作的第一步,需要先打开腾讯QQ开放平台。这里有个便捷方式:直接用手机QQ扫描图里的这个二维码,就能快速完成注册或登录了。 官网地址在这里:https: q qq com qqbot openclaw index html 二、创建机器人 登录成功后,下一步就是创建属

时间:2026-03-31 20:14
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程