古文漏洞揭示AI安全风险倒逼全域防护体系升级

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

古文漏洞揭示AI安全风险倒逼全域防护体系升级

热心网友时间：2026-05-25

转载

近期，一项关于AI安全漏洞的新研究在学术界引发了广泛关注。一篇被ICLR 2026收录的论文揭示了一个关键发现：利用文言文对大语言模型进行“越狱”攻击，其成功率竟可高达100%。这一现象凸显了当前AI安全防护体系中的一个显著盲区。

令人惊讶的是，攻击媒介正是我们熟悉的古代文言文。这一发现表明，主流大模型的安全对齐机制在面对古典语言——如文言文、拉丁文和梵文时——存在系统性的防御缺陷。研究者提出的“CC-BOS”攻击框架，在测试的六个主流模型上均实现了百分之百的攻击成功率。

一、为什么文言文成为AI安全漏洞的突破口？

论文对此给出了清晰的解释。当前大模型的安全防护系统，主要针对现代语言（尤其是英语）中的敏感词汇和危险模式进行识别与拦截。然而，文言文凭借其独特的语言特性，构成了三重“天然屏障”，使得安全过滤器难以有效应对。

首先，文言文具有高度的语义凝练性，往往用极少的字数承载丰富的内涵。安全系统要在如此简短的文本中精准识别潜在的危险意图，技术难度极大。

其次，文言文中一词多义的现象极为普遍。同一个字词在不同上下文语境中可能含义迥异，这给安全机制基于关键词或模式的判断带来了巨大挑战。

最后，文言文富含隐喻、用典、借代等修辞手法。许多现代语境下的危险概念，可以被巧妙地“包装”进古代词汇和典故之中，实现语义的隐蔽传输。

最终结果是，大模型本身能够理解文言文指令背后的真实意图，但前置的安全检测器却无法有效识别其中的危险语义。论文将这种模型理解能力与安全对齐之间的脱节现象，定义为“高能力-低对齐”的分布偏移问题。

二、CC-BOS攻击框架的核心原理是什么？

CC-BOS，全称为“Classical Chinese Bio-inspired Optimization Search”（文言文生物启发式优化搜索）。这是研究团队为系统性验证该漏洞而专门设计的一套自动化攻击生成框架。

其核心思路，是将生成有效越狱提示词的过程，转化为一个在八个策略维度上进行组合优化的搜索问题。这八个维度分别是：角色身份设定、行为引导策略、机制设计逻辑、隐喻映射关系、表达风格选择、知识关联方式、情境设置背景以及触发模式设计。

其中，隐喻映射被认为是整个攻击成功的关键环节。它负责将现代的危险指令或敏感概念，精准且隐蔽地映射为相应的古代术语、历史典故或经典表达，在完全保留原始攻击意图的同时，实现文本形式的彻底“古风化”。

为了高效地在庞大的策略组合空间中寻找最优攻击指令，研究团队引入了“果蝇优化算法”作为搜索策略。该算法模拟了果蝇群体的觅食行为，通过“嗅觉搜索”（对当前指令进行局部微调）、“视觉搜索”（向全局更优区域收敛）以及“柯西变异”（帮助跳出局部最优解）三种机制的协同作用，快速定位攻击效果最佳的策略组合。

三、实验结果与数据对比

论文显示，研究团队在六个当前主流的大语言模型上进行了全面测试，包括GPT-4o、Claude-3.7 Sonnet、Gemini-2.5-Flash、DeepSeek-Reasoner、Qwen3以及Grok-3。

在标准的AdvBench恶意行为基准测试集上，CC-BOS框架对所有六个模型的攻击成功率均达到了100%。

与此形成鲜明对比的是，此前表现最优的ICRT攻击方法，在Claude-3.7模型上的成功率仅为40%；而PAIR方法在多个模型上的成功率几乎为零。

在攻击效率方面，CC-BOS同样优势显著。PAIR方法平均需要40到60次模型查询才能生成有效攻击，TAP方法需要50到93次，而CC-BOS平均仅需1.12到2.38次查询，效率提升了一个数量级。

研究还将攻击范围扩展至拉丁语和梵语。实验结果显示，针对这两种古典语言的攻击成功率也高达94%以上。这证实了漏洞并非文言文特有，而是古典语言所面临的系统性安全风险。

在跨语言攻击效果的对比实验中，文言文的攻击成功率稳居第一（100%），现代中文为86%，英语为82%。

更值得警惕的是，即便模型额外部署了如Llama Guard等多层外部防御系统，CC-BOS攻击仍表现出较强的穿透能力。在多层复合防御的严苛环境下，现有其他攻击方法几乎全部失效，但CC-BOS依然保持了16%的成功率。

四、该漏洞的潜在影响与行业启示

随着AI智能体日益频繁地获得操作系统权限、执行自动化任务，此类漏洞的潜在危害性被急剧放大。攻击者可能无需编写复杂的恶意代码，仅需将一段精心构造的文言文指令嵌入网页、文档或邮件中，就能诱导具备高权限的AI智能体绕过安全防线，执行任意危险操作。

举例而言，假设用户使用一个AI助手来处理电子邮件和管理本地文件。黑客只需在某个网页中植入一段文言文指令。当AI助手访问该网页并“阅读”到这段文本时，尽管其核心模型能够理解这是一个恶意指令，但由于前端安全系统对古文格式的指令“疏于防范”，它就有可能依据指令执行危险操作，例如批量删除重要文件，或擅自向外发送敏感邮件。

因此，这远非一个简单的程序错误，而是一个触及AI安全技术路线根本的深层次问题。它为整个AI安全研究领域敲响了警钟：安全对齐工作绝不能仅局限于现代语言、英语及常见攻击模式，必须系统性地构建覆盖多语言、多文化、多历史语境复杂表达的防御体系。

当我们惊叹于AI能力飞速进步的同时，也必须清醒地认识到，技术越先进，其安全漏洞可能越隐蔽，带来的后果也越深远。文言文越狱攻击或许只是冰山一角。构建真正鲁棒的AI安全，需要我们跳出纯粹的技术优化视角，从语言学、文化学、社会学及伦理学等多个维度进行综合考量，从而建立起立体、纵深、自适应的新型防御体系。

来源:https://www.thepaper.cn/newsDetail_forward_33205288

上一篇： 90后新闻人亲述从报道者到AI分享嘉宾的媒体变革之路

下一篇：第四届链博会聚焦英伟达英特尔高通阿里巴巴等领军企业