防范Agent间接越狱攻击的工程实践可信动作清单

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

防范Agent间接越狱攻击的工程实践可信动作清单

热心网友时间：2026-05-18

转载

今天我们来深入探讨一个日益紧迫的现实挑战：当AI智能体（Agent）开始自主处理邮件、浏览网页、操作各类工具时，如何确保其行为不被恶意内容“带偏”？近期一篇题为《PlanGuard: Action-Level Guardrails for Language Agents via Reference Plan Verification》的学术论文，系统性地剖析了“间接越狱攻击”这一新型威胁，并提出了一套极具工程实践价值的防御框架。

论文链接：https://arxiv.org/pdf/2604.10134

“间接越狱攻击”的核心在于“间接性”。用户本身可能并未发出任何危险指令，但AI智能体在处理外部输入（如一封邮件、一个网页）时，却被其中嵌入的恶意诱导信息所操控，从而执行了越权操作。研究者将此类攻击主要归纳为两种模式。

第一类：工具调用劫持。 用户的原始意图可能是让Agent阅读邮件或总结网页内容，但Agent却被诱导去调用一个高风险工具，例如发送包含隐私的邮件、执行系统命令或发起未经授权的支付。其核心风险在于：执行了本不该发生的操作。

第二类：参数内容劫持。 这种情况更为隐蔽。工具调用本身是符合预期的，但传入的参数却被恶意内容篡改。例如，用户指令是删除一个临时目录，但参数被替换为系统关键路径；或指令是支付账单，但收款方和金额被暗中修改。表面上看，Agent调用的仍是“正确工具”，但执行的具体对象已严重偏离用户初衷。

因此，从工程安全视角出发，对AI智能体的有效防护必须回答两个核心问题：当前这个动作本身是否被允许发生？该动作的具体参数是否仍然符合用户的原始意图？ 本文介绍的PlanGuard方案，正是围绕这两个关键问题构建的防御体系。

1. 构建“可信动作清单”的校验机制

PlanGuard的核心思想可概括为一套“基于可信动作清单的校验机制”。其逻辑清晰而严谨：首先在一个纯净、隔离的环境中生成一份“参考执行计划”；随后，Agent在真实环境中的每一步实际操作，都必须与这份计划进行逐项比对和核验。

第一步：隔离式规划。 这是整个方案设计中最关键的一环。系统引入一个与所有外部潜在污染源完全隔离的“规划器”。该规划器仅能访问两项信息：用户的原始指令，以及当前系统可用的工具列表。它无法看到任何邮件正文、网页内容、文档数据或工具的历史返回结果。

此举目的明确：确保“参考计划”的生成过程完全不受外部恶意数据污染。这个规划器需要回答的问题是：如果系统仅依据用户的原始需求，而不参考任何外部信息，那么完成此任务理论上允许执行哪些动作？ 最终，它会输出一份“可信工作清单”，明确界定本次任务的执行边界：允许调用哪些工具、哪些动作方向是合理的、哪些工具调用根本不应出现。

这一思路极具启发性。许多现有防御方法依赖于让已经接触了污染上下文的Agent自身来判断“我该不该做”，这无异于让一个可能已被带偏的人来审查自己，其稳定性和可靠性存在先天不足。PlanGuard则转换了视角：既然外部内容可能是“脏”的，那么就将“定义执行边界”这个关键决策环节提前并独立出来，避免其接触脏数据。

第二步：实时动作核对。 获得这份“可信清单”后，每当Agent试图调用工具时，PlanGuard不会直接放行，而是先执行一次比对：计划调用的工具是否在清单内？如果在，其参数是否在合理范围内？如果不在，则直接拦截。

论文将这一核验过程设计为两层，分工明确：

① 第一层：硬规则校验。 执行最直接的规则比对。如果当前要调用的工具根本不在参考计划中，则判定为越界行为，直接拦截。如果工具在清单内，但参数与参考动作不完全一致，则进入下一层进行更细致的判断。这一层的特点是依赖硬规则、稳定性高、解释性强，能快速拦截大部分明显的高风险越界动作。但其缺点也显而易见：现实操作中参数格式常有合法变体（如“last_week”与“lastweek”），仅进行字符串级别的刚性匹配容易产生误报，影响正常操作。

② 第二层：语义意图校验。 当工具调用合理但参数形式存在差异时，交由一个额外的AI模型进行语义层面的判断：此次参数变化，是属于正常的表达差异，还是已经偏离了用户原始任务意图？这一层更像一个“语义复核员”，专门处理那些“规则上不一致但语义上可能没问题”的模糊地带，旨在保障系统的整体可用性和灵活性。

由此，整个流程形成了清晰的分工协作：第一层负责守住明确的安全边界，第二层负责保证灵活可用。这使得该方案更像一个考虑了安全与体验平衡的工程系统，而非单一的技术技巧。

2. 方案价值的深度解析：重新定义防御依据

这篇论文真正值得关注之处，并不在于其设计了两层校验，而在于它从根本上重新定义了AI智能体安全防御的依据。

许多传统安全方案的默认逻辑是：模型看到恶意内容 → 期望模型能识别出来 → 期望模型能拒绝执行 → 期望模型足够稳定可靠。这条路径的问题在于，它将过多希望寄托于“模型自身足够可靠”这一假设上。然而，一旦AI智能体开始操作真实工具、触及真实资产，单靠“模型应该懂得拒绝”是远远不够的，风险会直接传导至业务层。

PlanGuard的思路更接近系统工程思维：不预先假设模型永远可靠，而是先假设外部内容可能污染上下文；进而将“定义执行边界”这一关键环节独立出来、提前完成；让后续真实的工具调用，必须经过这份独立制定的计划的额外核验。它更像是在AI智能体外部构建了一层“执行控制面”，这层控制面不负责生成具体内容，只负责回答一个权限问题：你当前这一步操作，到底有没有执行的资格。 从产品架构和落地实践的角度看，这种思路比单纯“训练一个更聪明的防御模型”更具可操作性和长期价值。

3. 实验效果与核心发现

论文使用InjecAgent基准进行评测，任务覆盖了多种工具调用场景，包括可直接造成危害的操作以及可能导致隐私数据外泄的场景。

实验结果中最值得注意的发现是：在没有任何防护措施的情况下，AI智能体在间接攻击下的成功越狱率相当高。 这表明，只要外部恶意内容设计得足够巧妙，诱导Agent执行用户未授权的操作并非难事。

引入PlanGuard防护机制后，攻击成功率被显著压低。特别是第一层硬规则校验，其本身就能拦截大部分明显的越界动作；再叠加第二层语义复核，整体的误报率也能得到明显改善，在安全性与可用性之间取得了更好的平衡。

这个结果反映出的，不仅是“方案有效”，更揭示了一个关键问题：AI智能体安全的核心瓶颈，往往不在于模型生成的内容质量，而在于工具调用前是否有一个可靠、独立的检查关口。 对于普通的对话模型，一次错误回答的风险可能仅停留在内容层面；但对具备工具调用能力的Agent而言，一次错误的工具调用，其风险会直接落到资产、数据和系统操作层。因此，对Agent的防御绝不能只停留在输入检测和输出审查上，必须深入到“动作执行”层面。

4. 方案的局限性探讨

当然，PlanGuard方案也存在其固有的局限性。

第一，存在额外的系统开销。 由于增加了一套隔离规划和分层校验流程，系统的推理次数、响应时延和Token消耗成本都会相应增加。对于轻量级、低风险的交互场景，这可能不是最优选择；但对于涉及高权限操作、高价值资产的任务，这类为安全付出的额外成本通常是必要且值得的。

第二，更擅长拦截“越界动作”，对复杂参数问题的处理仍有挑战。 有些任务天然高度依赖外部上下文，例如“支付这封邮件里指定的账单”、“根据附件内容自动填写表单”。此时，“该不该调用支付工具”相对容易判断，但“支付给谁、支付多少金额、表单各字段应填何值”这些具体参数又必须从外部上下文中提取。这就形成了一个张力：参考计划隔离得越彻底，安全性越高，但对这类复杂、动态参数的核验能力就越弱。因此，该方法更适合作为“动作边界控制层”，而非万能的“上下文真实性验证器”。

第三，第二层的语义判断依然依赖模型能力。 虽然第二层比纯规则匹配更灵活，能处理模糊情况，但它本质上仍是一层基于模型的判断。这意味着它能显著改善系统的可用性，但并不提供绝对形式化的安全保证。这一点论文作者也进行了坦诚的说明。

5. 对AI智能体落地的三点启发

将这篇论文的核心思路置于更广泛的AI智能体落地场景中，可以提炼出三点极具实践价值的启发。

第一，高风险操作应与外部内容进行“隔离”。 凡是涉及发送邮件、执行支付、修改文件、运行命令、变更系统配置、向外部系统提交数据等高权限能力的工具调用，其执行决策都不应直接由可能被污染的上下文驱动。在执行之前，最好都引入一个独立的、基于可信计划的核验流程。

第二，工具权限管理不应仅是静态白名单。 传统的权限控制回答的是“用户/角色是否有权使用某个工具”；而在AI智能体场景中，还需要动态回答“在当前这轮具体任务上下文里，这个工具该不该出现”。PlanGuard的参考计划，本质上是一种动态的任务级白名单，它不是授予用户永久权限，而是为当前特定任务定义临时的、最小化的执行边界。这一点尤其适用于企业级AI助手、办公自动化Agent或多工具协同的工作流场景。

第三，安全校验机制宜采用分层设计。 单一依赖规则，容易导致误杀，影响体验；单一依赖模型，安全边界又不够清晰和强硬。更工程化的做法是进行分层处理：先用确定性高的规则守住最明显的安全边界；再用语义模型校验处理模糊和复杂的边缘情况；对于极高风险的操作，则可进一步接入审计日志、二次确认或人工审核兜底机制。这样既能保证安全防护的硬度，又能维持系统的整体可用性和灵活性。

6. 总结：从“内容护栏”到“动作清单”

归根结底，这篇论文的核心贡献可以用“可信动作清单”这一概念来理解。它所做的不是给AI智能体的行为贴上一个模糊的“安全/不安全”标签，而是提前明确：为了完成当前任务，系统允许执行哪些具体动作？这些动作的合理边界在哪里？ 清单之外的动作一律不执行，接近边界的动作则进入复核流程。

这比常见的“内容安全护栏”更贴近AI智能体真正的风险点。内容护栏主要解决的是“说什么”的问题，而可信动作清单则着力解决“做什么”的问题。在AI智能体日益深入现实工作流程、开始操作真实系统的时代，后者的重要性和紧迫性只会越来越高。为AI智能体构建清晰、可靠的动作执行边界，是确保其安全、可控落地的关键一步。

来源:https://www.51cto.com/article/841649.html

上一篇： Java与LangChain4j实现RAG文档智能拆分提升检索质量