面包屑图标 当前位置: 首页
AI资讯
热点详情

西湖大学揭示多模态大模型模糊图片攻击风险

AI热点日报
AI热点日报时间:2026-07-05
热点解读

西湖大学研究发现,多模态大模型在处理低清、模糊图片中的有害文本时,存在一个“攻击舒适区”,模型能识别文字但安全机制失效,攻击成功率显著升高。提出结构化认知卸载策略,将识别与审查解耦,可有效降低风险。

多模态大模型如今解析图片中的文字越来越精准,不过一个有趣的现象逐渐浮现:能看懂内容,并不代表能抵御攻击。

西湖大学 AGI Lab 近期发布了一项研究,结果相当反直觉:当有害文本被人为处理成低分辨率、模糊且带噪点的图片时,模型在某个特定的“清晰度区间”内,反而更容易被破解。这项成果已被 ACL 2026 Findings 收录,相关代码与数据也已开源。

图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

先设想一个典型场景:如果将一段文字压缩成一张图片,再输入多模态大模型,它会如何应对?

在长上下文处理能力飞速发展的当下,这一问题日益凸显。DeepSeek-OCR、Glyph 等研究已经给出了一条看似高效的技术路线:将文字渲染为高密度图像,用更少的视觉 Token 承载更多上下文信息。换句话说,模型不再仅“看图片”,而是开始通过视觉通道“读文档”。

但安全这根弦必须时刻紧绷——当文本被嵌入图片,尤其是图片变得模糊、低清、带噪声时,模型的安全护栏是否仍能与处理纯文本时一样稳固?

西湖大学 AGI Lab 的这项新研究给出了一个意外答案:在某个“刚好能被看清,但识别起来格外费力”的视觉退化区间内,多模态大模型的安全防线会显著弱化。该论文已被 ACL 2026 Findings 接收。

论文第一作者为实验室研究助理宋志学,指导老师是助理教授张驰。

  • 论文标题:Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment

  • 论文链接:https://arxiv.org/pdf/2605.07250

  • 代码与数据:https://github.com/Westlake-AGI-Lab/ACZ-Jailbreak

清晰输入通常触发安全拒绝;而视觉退化后的同类文本更容易绕过安全检查。

并非越模糊越危险,而是存在一个“攻击舒适区”

按常规直觉推理:图片越清晰,模型越容易理解内容;图片越模糊,模型越难执行指令。那么,如果有害文本被制成低清图片,最自然的推测是:要么模型看不懂,要么看懂后直接拒绝。

然而,这项研究观察到的风险曲线并非单调变化,而是呈现一个倒 U 型。

真正危险的,不是完全无法辨认的图,而是那种“还能看清,但需要费些力气”的图像。

研究团队将 770 条去重后的有害查询,渲染成不同 DPI 的图像,并在 GPT-4.1、Claude Sonnet 4.5、Doubao Seed 1.6、Qwen3-VL、GLM-4.5V、Intern-S1 等一系列闭源和开源模型上,测试了 OCR 准确率与攻击成功率(ASR)。

在 Attack Comfort Zone 中,OCR 依然保持较高水平,但图像攻击成功率同步攀升,形成倒 U 型风险曲线。

结果清晰表明:在 ACZ 内,模型通常仍能识别文字,但安全判断却明显失效。以 Qwen3-VL-32B-Thinking 为例,论文汇总表中其文本输入的 ASR 为 36.7%,但换成 ACZ 图像后,ASR 骤升至 86.2%;与此同时,其 OCR 字符级准确率仍达 95.4%,词级准确率 93.2%。

这意味着,评估多模态安全性时,不能只问“模型能否读懂图中的文字”,还必须追问:“模型读懂后,它是否还能稳定地触发安全机制?”

论文整体框架:视觉退化触发风险上升,并通过结构化认知卸载进行缓解。

为何会这样?模型忙于认字,安全审查被延迟

为解释该现象,论文提出了 Visual Cognitive Overload(视觉认知过载) 假说。

可以将其理解为一种“一心二用”的失败:在清晰输入下,模型能较早捕获有害语义并触发拒绝;而在退化图片中,模型必须投入更多计算与注意力去辨认字符、恢复词语、拼合句子。原本应同步进行的安全审查,因此被挤占或延后。

这就像阅读一张模糊截图时,注意力先被“这究竟写的是什么”所吸引,等到内容终于被读懂,对其意图的判断却已慢了一拍。

为验证这一机制,团队训练了 layer-wise safety probe,观察模型不同层级的安全特征。结果显示:对于清晰图像,有害特征在浅层就更容易被识别;而 ACZ 输入在浅层更接近无害样本,直到更深层才逐渐暴露风险。

安全探针显示,ACZ 输入中的有害特征在浅层不明显,到更深层才逐渐显现。

换言之,ACZ 输入并非简单的“模型读错了”。更准确的描述是:模型将这些图像当作有效的视觉信号处理,但安全特征出现得更晚,错过了浅层安全机制最有效的窗口。

团队还利用 t-SNE 分析排除了简单的 OOD(分布外)解释。ACZ 样本并不像极低 DPI 噪声那样孤立于表示空间之外,而是与高保真样本处于相近流形中。这说明模型并未将其视为无效输入丢弃,而是让它们以更隐蔽的方式绕开了安全判断。

t-SNE 分析显示,ACZ 样本并非简单离群噪声,而是被模型当作有效视觉信号处理。

不只限于低分辨率:噪声、扭曲、遮挡都会放大风险

如果 ACZ 仅仅是低分辨率引发的偶然现象,那么现实风险可能有限。但论文进一步发现,多种自然的视觉退化同样会诱发类似问题。

团队测试了模糊、几何扭曲、干扰线、马赛克、噪声、遮挡等多种扰动。结果均指向同一结论:只要让视觉理解变得更费力,模型的攻击成功率就可能被抬升。

更有趣的是,该现象并非仅限于英文。论文在中文有害提示上也观察到相同的 ACZ 区间,攻击成功率显著高于 300 DPI 下的水平。例如,Doubao Seed 1.6 在 300 DPI 下的 ASR 为 16.7%,而在 ACZ 下直接升至 70.3%。

关键提醒:未来的视觉文本压缩、OCR 增强多模态系统,以及图像化长上下文应用,不能仅将“可读性”作为唯一指标。只要输入需要模型费力识别,安全对齐就可能面临额外压力。

一种简单防御:先转写,再审查,最后回答

针对这一机制,论文提出了一种朴素的缓解策略:Structured Cognitive Offloading(结构化认知卸载)

该方法无需重新训练模型,而是将原本混杂的任务拆解为串行流程:

  1. Transcription:首先逐字转写图片中的文本;
  2. Safety Evaluation:然后基于转写后的纯文本进行安全判断;
  3. Response:最后决定是否回答。

其核心思路是将“视觉识别”与“内容审查”解耦。模型不再一边费力 OCR,一边同时判断是否有害,而是先卸下视觉负担,再回归其更稳健的文本安全审查通道。

Structured Cognitive Offloading 将识别、审查和回答拆分为串行流程后,显著降低了 ACZ 区间的攻击成功率。

实验显示,这一简单策略能大幅降低 ACZ 风险。以 Qwen3-VL 为例,攻击成功率从约 67.4% 降至 4%。同时,在一个包含 300 样本的正常 OCR 文档理解子集上,该策略并未引入额外误拒,反而提升了回答质量。

当然,该方案并非毫无代价。论文指出,串行流程会使平均输出长度增加约 102%,因此在实时、高吞吐场景下,仍需更系统的工程优化。

这项工作提醒了什么

回顾来看,ACZ 的意义并不只是多发现了一类视觉越狱攻击。

它更像是在提醒整个多模态模型社区:安全对齐并非仅仅发生在语义层面的静态能力,还可能受到输入形态、视觉质量、计算资源分配以及层级特征出现时机的影响。

当文本进入视觉通道,模型面对的不再是单纯的文字输入,而是视觉识别、语义理解和安全审查相互交织的复杂任务。更强的 OCR 能力,并不自动带来更强的安全能力。

对于正在快速发展的视觉文本压缩路线而言,这一点尤为重要。提升压缩率、降低 Token 成本固然有价值,但如果压缩后的图像将模型推入“攻击舒适区”,效率收益便可能伴随新的安全成本。

论文最后将这一问题概括为一种资源分配视角:多模态安全,不仅仅是数据对齐问题,它也可能是模型在有限计算与注意力资源下,如何平衡“看清”与“审查”的问题。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:西湖大学揭示多模态大模型模糊图片攻击风险要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.jiqizhixin.com/api/article_library/articles/2026-06-14-7
多模态大模型

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 19:47
OmniParser基于AI的解析工具

OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。

AI热点2026-07-05 19:47
通义灵码智能编码助手助你高效编程

通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。

AI热点2026-07-05 19:47
基于AI的自动化道路巡逻与资产数据收集方案

基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。

AI热点2026-07-05 19:47
通义智文AI助你高效阅读全网文章

阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。

延伸阅读