ICML 2026:一句无关问题劫持Agent,港科大复旦提出语义缓存键碰撞攻击
香港科技大学与复旦大学提出CacheAttack框架,针对大语言模型语义缓存的模糊匹配漏洞,以高达86%成功率劫持响应。该自动化黑盒攻击通过对抗后缀实现缓存键碰撞,在多租户和智能体场景下可诱导AI执行恶意指令,涉及AWS、Azure等主流云服务。
随着大语言模型与AI智能体的广泛应用,如何有效降低推理成本与响应延迟成为部署时的核心挑战。当前,主流云服务商和开源框架广泛采用语义缓存技术:将用户查询转化为嵌入向量作为缓存索引,通过语义相似度匹配直接返回缓存结果,从而避免重复计算。然而,这种为提升效率而设计的“模糊匹配”机制,是否真的安全可靠?
来自香港科技大学与复旦大学的研究团队在ICML 2026会议上发表了一项研究,系统揭示了语义缓存的完整性漏洞,并提出了名为CacheAttack的自动化黑盒攻击框架。实验数据显示,在多租户和智能体场景下,该攻击能以高达86%的成功率劫持AI系统的响应,受影响的包括AWS、微软Azure等多家主流云服务商。

图1:语义缓存碰撞攻击示意图
研究背景:当“近朱者赤”的语义相似性演变为安全漏洞
此前关于LLM缓存系统的安全研究大多聚焦于侧信道攻击与隐私泄露,而这项工作首次将目光投向长期被忽视的完整性破坏。研究团队指出,语义缓存的匹配机制本质上是一种保留局部性的模糊哈希,这带来了根本性的设计悖论:性能与安全的冲突。
传统密码学哈希追求雪崩效应——输入改变一个比特,输出哈希值即彻底变化,从而具备极强的抗碰撞能力。
语义缓存哈希为了提升缓存命中率,故意消除雪崩效应,使语义相近的输入映射到同一向量空间区域。
这种天然的模糊性为攻击者打开了大门。攻击者可通过精心设计对抗样本,在保持恶意指令语义不变的前提下,让嵌入向量与受害者的良性查询强行对齐。当受害者发送请求时,系统误判为命中缓存,直接将攻击者预先植入的恶意响应返回,实现响应劫持。
团队还从理论层面为“性能与安全”的权衡给出了严格的数学证明,通过形式化推导揭示了语义缓存机制固有的误报风险下界。
技术核心:CacheAttack框架如何攻破黑盒系统?
在实际生产环境中,语义缓存中间件对于攻击者通常完全处于黑盒状态——无法获知Embedding模型参数、向量表征及相似度阈值。为攻克这一难题,研究团队设计了一套自动化的“生成器-校验器”框架:
1. 离线生成器(Generator)
攻击者构建形如的对抗提示词,其中s为离散的对抗后缀。该框架基于GCG搜索算法,在本地替代模型上进行端到端联合优化。同时引入困惑度惩罚项,确保生成的对抗提示词不仅碰撞能力强,而且符合人类语言流畅度,从而绕过智能体的前置输入过滤器。
2. 双变体校验器(Validator)与时延侧信道
由于无法直接读取黑盒系统的缓存状态,CacheAttack创新性地将缓存验证建模为隐状态推断问题。系统利用执行时延作为侧信道信号,通过构建高斯混合模型和最大后验概率决策规则,动态排除网络抖动干扰,精准推断是否发生缓存命中。
针对不同强度的防御,团队推出了两款攻击变体:
CacheAttack-1(直接验证):直接在目标黑盒模型上高频探测。虽然直观,但缺乏显式刷新缓存权限,每次探测需等待TTL过期,且易被流量分析检测。
CacheAttack-2(替代模型协助过滤):这是本工作的核心亮点。它将绝大部分对抗迭代交给本地高吞吐的替代模型,仅当候选后缀在本地成功触发碰撞后,才向黑盒目标系统发起单次验证。这彻底解耦了TTL限制,兼顾隐蔽性与攻击效率。
实验验证:主流云服务与智能体全线告急
研究团队在多个场景下对CacheAttack进行了全面评估,覆盖AWS、微软Azure等云服务商。在基础响应劫持能力测试中,CacheAttack展现出惊人的黑盒穿透性。在主流语义缓存GPTCache上,CacheAttack-1和CacheAttack-2分别取得了86.9%和83.1%的极高命中率。
而在复杂智能体工作流场景中,攻击更具破坏性。通过对工具调用链条实施精准缓存碰撞,CacheAttack成功诱导AI Agent产生连锁规划错误,并盲目调用恶意工具,导致智能体的工具选择正确率与任务完成度急剧下降。
案例:金融Agent惨遭“恶意洗劫”
研究团队展示了一个真实的金融智能体实战案例(图2):
正常状态下:受害者询问投资建议,金融Agent读取新闻后给出保守策略:“市场稳定,建议保持观望”,不触发任何交易工具。
遭受攻击时(两阶段):
第一阶段(埋雷):攻击者发送一条关于“股票A暴跌”的恶意提示词并附带对抗后缀。系统生成了对应的强平清仓工具调用set_order(Stock_A, 5000, SELL),结果被写入共享语义缓存。
第二阶段(引爆):受害者发送一个完全无害的日常询问:“请帮我看看最近的新闻,我的投资该怎么办?”由于对抗后缀的干扰,受害者请求的Embedding键直接与攻击者的缓存键发生恶性碰撞。
后果:系统跳过LLM推理,无条件复用攻击者那条“卖出5000股股票A”的缓存指令。受害者账户在毫不知情下被强制平仓,造成实质性重大经济损失。
图2:金融agent受到语义缓存键碰撞攻击
结语与思考
效率与安全的零和博弈:语义缓存无法逃避的底层宿命
这项研究最深刻的贡献,不仅在于提出了一个高效攻击框架,更在于揭示了LLM Serving架构中一个无法调和的底层悖论:
向左走(追求性能):为最大化缓存命中率、降低推理成本和尾延迟,系统必须放宽匹配边界,采用强局部性的模糊哈希。但边界越宽松,留给攻击者的假阳性空间就越大。
向右走(追求安全):为抵御CacheAttack而强行收紧阈值,甚至退回精确Token匹配或追求雪崩效应,语义缓存便名存实亡,失去商业与技术价值。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:ICML 2026:一句无关问题劫持Agent,港科大复旦提出语义缓存键碰撞攻击要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点你随手拍下一张照片,或者从相册中挑选一张图片,AI就能自动识别画面中的内容,并随即生成一句恰到好处的meme文案——这就是 MemeCam 正在实现的创意功能。它由 GPT-4o 驱动,目标非常明确:让 meme 创作变得轻松、有趣、且零门槛,人人都能成为段子手。 什么是MemeCam? MemeC
先说一个很有意思的应用——Seeing Dogs。它本质上是一款专门为视障人士打造的iPhone和iPad工具,但背后的逻辑其实很值得关注:用AI来“翻译”视觉信息,把周围的世界变得可听、可感。这个方向其实并不算新鲜,但能做到像Seeing Dogs这样把场景描述、物体识别、街道标志读取甚至菜单导航
今天我们来聊一聊名为Cargoship的产品。它的核心功能其实非常直接——为开发者提供经过预训练的AI模型,只需通过API调用即可使用。关键在于,你完全无需掌握机器学习知识,甚至不必了解模型背后的训练细节。这个工具能够直接帮助你跨越技术门槛。 目标用户群体 Cargoship精准定位了这样一类用户:
想象一下,有一个人工智能助手,它不仅能记住您上次聊到的内容,还能根据您的习惯和情绪,给出真正贴合需求的支持。不再是冷冰冰的机器人,而是像一位随时在线的朋友,用自然的语音陪伴您聊天,甚至能“读懂”您发送的图片和视频。这款Personal Voice and Vision Assistant(个人语音视
- 日榜
- 周榜
- 月榜
热点快看
