牛剑斯坦福新研究：具备思考能力的AI更易遭受越狱攻击

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

牛剑斯坦福新研究：具备思考能力的AI更易遭受越狱攻击

热心网友时间：2025-11-09

转载

11月8日消息，《财富》杂志援引11月7日发布的最新研究报告指出，目前已被企业和消费者广泛使用的主流AI模型面临着比预期更严重的安全隐患，其先进人工智能系统比人们此前预想的更容易遭受入侵。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

由Anthropic、牛津大学和斯坦福大学联合进行的研究表明，模型的推理能力越出色，并不代表它越能有效抵御有害指令的干扰。

牛津、斯坦福大学新研究：能“思考”的 AI 推理模型更易受到越狱攻击

研究人员采用名为"链式思维劫持"的新攻击方法发现，即使是市面上主流的商用AI模型也能被轻易诱导。在部分测试场景中，这种攻击的成功率超过了80%。该方法通过操控模型的逐步推理过程，将恶意指令巧妙隐藏在看似正常的思维链条中，从而绕过系统内置的安全防护机制。

这类攻击会导致AI系统忽视安全防护措施，进而生成具有潜在风险的内容，包括武器制作指南或敏感信息泄露等。

过去一年间，大型推理模型通过投入更多计算资源显著提升了性能表现。具体而言，模型在回答每个问题前会投入更多时间和资源进行分析，以实现更复杂、更深层次的推理。此前学界普遍认为，这种增强的推理能力或许能同步提升模型安全性，帮助系统更好地识别和拒绝有害请求。但最新研究显示，这种能力同样可能被攻击者利用来规避安全措施。

研究表明，攻击者可以将恶意请求隐藏在一长串无害的推理步骤中。通过大量正常内容淹没模型的思维过程，从而削弱其内部安全检查机制的有效性。在实验过程中，AI系统的注意力主要集中于前序步骤，而位于提示信息末端的有害指令几乎被完全忽略。

随着推理链条的延长，攻击成功率呈现显著上升趋势：在最短推理步骤下成功率为27%，自然推理长度下达到51%，而当扩展推理链时，成功率更是飙升至80%以上。

这一安全漏洞几乎影响了所有主流AI模型，包括ChatGPT、Claude、Gemini和Grok。即便是经过专门安全优化的"对齐模型"，一旦其内部推理层被利用，安全防护也会随之失效。

根据相关报道，过去一年来，扩展模型推理能力已成为各AI公司提升核心模型性能的主要技术路径。增强的推理能力使模型能够处理更复杂的任务，不再局限于简单的模式匹配，而是更接近人类解决问题的思维方式。

研究团队提出"推理感知防护"作为解决方案。该方法在AI系统逐步思考问题时，会持续监控安全检查机制的活跃状态。如果某个推理步骤削弱了安全信号，系统将及时介入干预，将注意力重新引导至潜在有害内容上。初期测试表明，这种防护方法既能确保模型维持良好性能，又能有效恢复安全防护功能。

参考

https://arxiv.org/pdf/2510.26418

来源:https://www.ithome.com/0/895/953.htm

上一篇： AI引发灾难：代码无审核与数据滥用警示

下一篇： OpenAI推出GPT-5-Codex-Mini：高效能AI编程模型解析