数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

对话邓智航从龙虾智能体到多智能体网络的安全架构演进

AI热点日报时间：2026-05-20

热点解读

OpenClaw 的迅速走红，将一个原本更多局限于技术圈内的演进趋势，突然变得清晰可感。当一个智能体（Agent）能够跨越不同应用程序执行任务、调用各类工具，并在几乎无需人工干预的情况下完成复杂流程时，人们首次直观地认识到：AI 正从“生成内容的辅助工具”，演变为“参与实际行动的决策主体”。也正是

OpenClaw 的迅速走红，将一个原本更多局限于技术圈内的演进趋势，突然变得清晰可感。

当一个智能体（Agent）能够跨越不同应用程序执行任务、调用各类工具，并在几乎无需人工干预的情况下完成复杂流程时，人们首次直观地认识到：AI 正从“生成内容的辅助工具”，演变为“参与实际行动的决策主体”。也正是这一刻，其伴生的安全问题被急速推至聚光灯下。

然而，一个更值得关注的现象是，在目前几乎所有关于智能体安全的探讨中，问题的定义依然高度集中于模型层面：输入是否遭遇注入攻击、输出是否超越边界、价值对齐是否失效。这种讨论路径本身并无错误，但它隐含了一个前提，即安全威胁主要发生于“模型”这一个单点之上。

关键在于，这个前提可能正在过时。当智能体不再仅仅被动响应指令，而是持续接收来自多元渠道的信息、在由多组件构成的架构中进行决策、并通过一系列工具链将决策转化为现实世界的具体操作时，“安全”所指向的对象，早已不再是单一的模型，而是一个由模型、记忆模块、工具集、运行环境以及交互链路共同构成的复杂系统。

在这样的系统性架构中，风险未必以“错误的内容输出”形式呈现，也未必以“瞬间的全面失控”方式爆发。它可能表现为决策逻辑在过程中的缓慢偏移、风险信息在链路传递中被无意放大或扭曲，甚至是跨越不同组件、不同智能体主体之间产生的相互影响与连锁反应。

这同时也意味着，智能体安全的核心议题，正在从追问“它是否安全”，转向探究“它如何被影响”。

在题为《From Secure Agentic AI to Secure Agentic Web》的论文中，上海交通大学与上海创智学院的张伟楠教授团队，正是从这一根本性转变出发，尝试将智能体安全从模型层面的鲁棒性问题，重新置于系统结构与动态运行机制之中进行审视与讨论。

围绕这一前沿议题，AI科技评论与论文第一作者邓智航进行了深度对话。下文在忠实于原意的基础上，对访谈内容进行了梳理与呈现，旨在系统还原其关于智能体安全问题“从模型走向系统”的整体思考框架。

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构

智能体安全，我们是否理解有误？

近期 OpenClaw 的爆火，让众多开发者开始关注智能体安全，但观察可见，讨论焦点几乎仍集中在提示词注入（Prompt Injection）、模型越狱等传统问题上。这实际上反映了一个普遍存在的认知误区。

当前多数关于智能体安全的讨论，依然停留在这些相对“表层”的挑战上，其本质仍是关注模型的最终输出。然而，现代智能体已不再是一个仅生成文本的孤立系统。过去的聊天机器人，本质是文本输入与文本输出的闭环；而如今的智能体会主动调用工具、写入长期记忆，并持续与外部动态环境进行交互。

在此背景下，安全问题的重心必须发生根本性转移，即从“模型会不会输出有害内容”，转向“整个智能体系统在开放、不确定的环境中是否整体可控、行为可审计、权限可约束”。这是当前视角最重要的变化。

这意味着，风险已不止于“说错话”，而是能真实地影响物理世界。因为智能体现在具备调用工具和操作外部系统的能力，其行为不再局限于内容生成层，而是可以直接转化为现实行动。例如，它可以删除关键文件、泄露用户隐私数据，甚至在获取敏感信息后，自动调用邮件系统发送给攻击者。因此，当前的问题不仅是“生成内容是否安全”，更是“其执行的操作是否安全”，这一变化是本质性的。

那么，驱动这种质变的核心因素是什么？许多人会归因于工具调用能力。工具调用固然关键，但如果必须选择一个更核心的要素，那应是智能体在开放环境中的自主行动能力。工具调用本质上是能力扩展的接口，它赋予智能体更多操作可能，但真正令安全问题发生质变的，是智能体开始在一个动态、复杂、甚至存在对抗性的环境中，进行持续感知、独立判断并自主执行。

例如，网页中的动态内容、文档内嵌的信息、第三方服务返回的数据流，都会持续进入智能体的决策流程，共同构成一个更庞大、更不可控的风险暴露面。因此，关键不只是“能否调用工具”，而是“在何种环境中行动，以及如何基于环境信息进行行动”。

在论文中，研究团队将威胁划分为提示词、环境、记忆、工具链等不同类别。若从攻击者视角审视，这些攻击方式存在一个高度统一的本质：争夺对智能体决策过程的控制权。无论是提示词攻击、环境信息注入、长期记忆投毒，还是工具链上的漏洞，它们表面上发生在不同模块，但本质上都是在影响智能体的认知框架与决策逻辑。

因此，安全问题的核心，并非某个独立漏洞被触发，而是智能体在看似运行正常的表象下，被悄然引导至偏离预期的轨道。这种“决策控制权的隐性转移”，才是所有攻击共性的关键。

既然提及环境，是否可以理解为，外部世界本身就是智能体的主要输入源？这个理解是正确的。对人类而言，网页主要用于阅读和判断信息；但对智能体而言，它通常不会像人类一样进行复杂的价值判断，而是倾向于将网页内容、文件数据以及工具返回的结果直接作为输入，用以影响其任务规划与行为决策。

因此，从系统安全工程的角度看，我们需要将整个外部环境都视为潜在的攻击面，即默认其可能包含恶意意图，而非默认其可信。

如果有人认为，通过精心设计的系统提示词（System Prompt）和严格的拒答机制，就足以解决大部分安全问题，这种想法是远远不够的。首先，系统提示词本身就可能被篡改或绕过；其次，许多高级攻击并非通过用户直接输入发起，而是来自网页内容、工具返回信息，甚至是智能体间通信数据。

因此，系统提示词和拒答机制更多只是第一道防护栏，它们虽重要，但无法覆盖整个智能体系统的全部攻击面。真正可靠的安全方案，需要将细粒度的工具权限控制、运行时的行为监控、协议级的交互校验以及持续的红队对抗测试结合起来，从而构建一个纵深防御的安全体系。本质上，这是一个需要生态协同解决的系统级问题。

在论文中，团队将工具链风险类比为“供应链安全”问题。这个类比非常直观。风险不一定源于模型本身，也可能来自其依赖的第三方工具、API接口或插件。例如，一个被污染的工具提供方、一个返回结果不可靠的接口，或多个单独看似乎安全的工具在组合调用时产生非预期的联动效应，都可能导致严重后果。因此，在智能体系统中，工具链实质上构成了一个软件供应链，其安全问题也随之演变为供应链安全问题。

那么，像 MCP（Model Context Protocol）这类统一工具调用协议，一方面提升了能力互操作性，另一方面是否也同步放大了风险？这种双重性确实非常明显。一方面，MCP 提供了统一的上下文管理及工具交互标准，使得不同系统间能更便捷地协作，极大提升了智能体的能力上限。但另一方面，它作为一个集中化的统一入口，也将权限管理、信任建立以及潜在的污染风险集中并放大了。

因此，关键不在于是否要使用 MCP，而在于在采纳这些强大能力的同时，是否同步设计并部署了与之匹配的安全机制。本质上，能力越强大，对应的风险暴露面和攻击面也越大。

当前围绕智能体安全的讨论中，哪些风险可能被高估了，哪些又被低估了？被高估的，主要是那些易于被发现和演示的风险，例如单轮对话的越狱或即时性攻破。这类问题因其直观性，更容易吸引关注。而被严重低估的，则是一些更贴近真实长期部署场景的问题，例如长期记忆的缓慢污染、智能体网络中的风险传播效应，以及决策行为的渐进式偏移。

这些问题通常不会立即爆发，也难以被常规检测手段察觉，但会在长期运行中持续且隐蔽地影响智能体的行为模式。一次更“高明”的攻击，不会让智能体当场崩溃，而是会逐步改变其偏好设定、信任锚点及决策倾向，使其在大量看似正常的日常决策中持续发生微小偏移。这种长期、潜伏性的风险更值得警惕。

挑战，已不止于单个智能体

如果智能体之间相互连接形成网络（Agentic Web），会带来哪些全新的安全变化？一个至关重要的变化是，我们过去在互联网中有一个默认前提，即网络请求的另一端大概率是人类用户，许多现有的信任关系与安全机制都建立在这一隐含假设之上。但在智能体网络中，这个前提被彻底打破，因为请求很可能来自另一个自主运行的智能体，甚至是经过多层智能体委托和自动决策链转发的。

这就意味着，原先依赖人类常识和意图所建立的隐式信任关系已不再成立，必须转变为显式、可验证、可审计且可追踪的信任与授权机制。

这是否也意味着，一旦发生安全事件，责任追溯将变得极其困难？是的，这是一个非常现实的治理挑战。如果是人类说错话，我们可以直接追责到个人；但如果是智能体出现问题，我们很难快速判定是它自身逻辑错误，还是被其他智能体恶意误导，亦或是某个中间通信环节被污染。

在这种情况下，就必须依赖一整套完备的行为审计与事件追溯机制，否则调查过程将如同追踪一笔经过多层洗转的资金链条，异常困难且成本高昂。

那么，是否会出现一种不立即触发警报，而是长期潜伏、缓慢施加影响的攻击？这种情况不仅可能，而且概率很高。一种更成熟的攻击策略，不会立刻制造一个可被监测系统发现的事故，而是会悄无声息地改变智能体的行为偏好、信任库以及决策权重，让它在无数看似正常的微小决策中持续发生不易察觉的漂移。相比瞬间的、显性的失控，这种长期的行为漂移实际上更为危险，因为它更具隐蔽性，也更难以通过传统安全检测手段发现。

那么，智能体能力与安全性之间的矛盾应如何处理？这是一个不可避免的内在张力。智能体的能力越强，意味着其可访问的上下文更广、可调用的工具更多、自主性更高，但相应的潜在风险也呈指数级增加。反之，如果将权限过度收紧，其能力又会受到严重限制。

因此，问题的核心不在于能否彻底消除这种张力，而在于能否通过系统设计，将其转化为一个可控、可管理的状态。例如，通过实施分级授权机制、建立实时行为监测系统、以及构建完善的事后审计与追溯能力，来系统性地管理这种能力与安全之间的平衡。

未来两到三年，智能体安全发展的分水岭可能会出现在哪里？关键在于，整个行业能否将身份认证、动态授权、行为溯源以及运行时治理等核心安全能力，真正打造成可复用的基础设施。如果这些安全基础设施能够建立起来，智能体才有可能从当前“功能强大但风险未知”的探索期，走向“可规模化扩展且安全可治理”的成熟阶段。

如果仅仅依赖提示词工程或零散的补丁式防御，一旦智能体开始大规模接入开放网络并与现实系统深度交互，现有方式将完全无法支撑其安全需求。

这种“安全基础设施”，可能会以何种形式呈现？具体形态仍需行业共同探索，但可以做一个类比。两年前没有 MCP 协议时，各家的工具调用方式千差万别，系统间难以互通。而 MCP 出现后，通过统一协议，工具调用层实现了标准化，从而显著提升了整个生态的互操作性与能力上限。

未来的核心安全机制，也有可能以类似的“安全协议”或“标准框架”形式出现，通过定义统一的安全交互协议、审计数据格式和治理接口，让整个智能体生态在高效运行的同时，具备内生、可验证的安全能力。

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：对话邓智航从龙虾智能体到多智能体网络的安全架构演进要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.leiphone.com/category/ai/iXImSdRxxrL8er4F.html

AI Agent Agent安全

上一篇：中山大学梁小丹团队CVPR论文实现物理正确视频生成新突破

下一篇：深度机智发布全球首个具身基座模型以人类学习范式实现效率超越真机

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。