对话邓智航从龙虾智能体到多智能体网络的安全架构演进
OpenClaw 的迅速走红,将一个原本更多局限于技术圈内的演进趋势,突然变得清晰可感。
当一个智能体(Agent)能够跨越不同应用程序执行任务、调用各类工具,并在几乎无需人工干预的情况下完成复杂流程时,人们首次直观地认识到:AI 正从“生成内容的辅助工具”,演变为“参与实际行动的决策主体”。也正是这一刻,其伴生的安全问题被急速推至聚光灯下。
然而,一个更值得关注的现象是,在目前几乎所有关于智能体安全的探讨中,问题的定义依然高度集中于模型层面:输入是否遭遇注入攻击、输出是否超越边界、价值对齐是否失效。这种讨论路径本身并无错误,但它隐含了一个前提,即安全威胁主要发生于“模型”这一个单点之上。
关键在于,这个前提可能正在过时。当智能体不再仅仅被动响应指令,而是持续接收来自多元渠道的信息、在由多组件构成的架构中进行决策、并通过一系列工具链将决策转化为现实世界的具体操作时,“安全”所指向的对象,早已不再是单一的模型,而是一个由模型、记忆模块、工具集、运行环境以及交互链路共同构成的复杂系统。
在这样的系统性架构中,风险未必以“错误的内容输出”形式呈现,也未必以“瞬间的全面失控”方式爆发。它可能表现为决策逻辑在过程中的缓慢偏移、风险信息在链路传递中被无意放大或扭曲,甚至是跨越不同组件、不同智能体主体之间产生的相互影响与连锁反应。
这同时也意味着,智能体安全的核心议题,正在从追问“它是否安全”,转向探究“它如何被影响”。
在题为《From Secure Agentic AI to Secure Agentic Web》的论文中,上海交通大学与上海创智学院的张伟楠教授团队,正是从这一根本性转变出发,尝试将智能体安全从模型层面的鲁棒性问题,重新置于系统结构与动态运行机制之中进行审视与讨论。
围绕这一前沿议题,AI科技评论与论文第一作者邓智航进行了深度对话。下文在忠实于原意的基础上,对访谈内容进行了梳理与呈现,旨在系统还原其关于智能体安全问题“从模型走向系统”的整体思考框架。

智能体安全,我们是否理解有误?
近期 OpenClaw 的爆火,让众多开发者开始关注智能体安全,但观察可见,讨论焦点几乎仍集中在提示词注入(Prompt Injection)、模型越狱等传统问题上。这实际上反映了一个普遍存在的认知误区。
当前多数关于智能体安全的讨论,依然停留在这些相对“表层”的挑战上,其本质仍是关注模型的最终输出。然而,现代智能体已不再是一个仅生成文本的孤立系统。过去的聊天机器人,本质是文本输入与文本输出的闭环;而如今的智能体会主动调用工具、写入长期记忆,并持续与外部动态环境进行交互。
在此背景下,安全问题的重心必须发生根本性转移,即从“模型会不会输出有害内容”,转向“整个智能体系统在开放、不确定的环境中是否整体可控、行为可审计、权限可约束”。这是当前视角最重要的变化。
这意味着,风险已不止于“说错话”,而是能真实地影响物理世界。因为智能体现在具备调用工具和操作外部系统的能力,其行为不再局限于内容生成层,而是可以直接转化为现实行动。例如,它可以删除关键文件、泄露用户隐私数据,甚至在获取敏感信息后,自动调用邮件系统发送给攻击者。因此,当前的问题不仅是“生成内容是否安全”,更是“其执行的操作是否安全”,这一变化是本质性的。
那么,驱动这种质变的核心因素是什么?许多人会归因于工具调用能力。工具调用固然关键,但如果必须选择一个更核心的要素,那应是智能体在开放环境中的自主行动能力。工具调用本质上是能力扩展的接口,它赋予智能体更多操作可能,但真正令安全问题发生质变的,是智能体开始在一个动态、复杂、甚至存在对抗性的环境中,进行持续感知、独立判断并自主执行。
例如,网页中的动态内容、文档内嵌的信息、第三方服务返回的数据流,都会持续进入智能体的决策流程,共同构成一个更庞大、更不可控的风险暴露面。因此,关键不只是“能否调用工具”,而是“在何种环境中行动,以及如何基于环境信息进行行动”。
在论文中,研究团队将威胁划分为提示词、环境、记忆、工具链等不同类别。若从攻击者视角审视,这些攻击方式存在一个高度统一的本质:争夺对智能体决策过程的控制权。无论是提示词攻击、环境信息注入、长期记忆投毒,还是工具链上的漏洞,它们表面上发生在不同模块,但本质上都是在影响智能体的认知框架与决策逻辑。
因此,安全问题的核心,并非某个独立漏洞被触发,而是智能体在看似运行正常的表象下,被悄然引导至偏离预期的轨道。这种“决策控制权的隐性转移”,才是所有攻击共性的关键。
既然提及环境,是否可以理解为,外部世界本身就是智能体的主要输入源?这个理解是正确的。对人类而言,网页主要用于阅读和判断信息;但对智能体而言,它通常不会像人类一样进行复杂的价值判断,而是倾向于将网页内容、文件数据以及工具返回的结果直接作为输入,用以影响其任务规划与行为决策。
因此,从系统安全工程的角度看,我们需要将整个外部环境都视为潜在的攻击面,即默认其可能包含恶意意图,而非默认其可信。
如果有人认为,通过精心设计的系统提示词(System Prompt)和严格的拒答机制,就足以解决大部分安全问题,这种想法是远远不够的。首先,系统提示词本身就可能被篡改或绕过;其次,许多高级攻击并非通过用户直接输入发起,而是来自网页内容、工具返回信息,甚至是智能体间通信数据。
因此,系统提示词和拒答机制更多只是第一道防护栏,它们虽重要,但无法覆盖整个智能体系统的全部攻击面。真正可靠的安全方案,需要将细粒度的工具权限控制、运行时的行为监控、协议级的交互校验以及持续的红队对抗测试结合起来,从而构建一个纵深防御的安全体系。本质上,这是一个需要生态协同解决的系统级问题。
在论文中,团队将工具链风险类比为“供应链安全”问题。这个类比非常直观。风险不一定源于模型本身,也可能来自其依赖的第三方工具、API接口或插件。例如,一个被污染的工具提供方、一个返回结果不可靠的接口,或多个单独看似乎安全的工具在组合调用时产生非预期的联动效应,都可能导致严重后果。因此,在智能体系统中,工具链实质上构成了一个软件供应链,其安全问题也随之演变为供应链安全问题。
那么,像 MCP(Model Context Protocol)这类统一工具调用协议,一方面提升了能力互操作性,另一方面是否也同步放大了风险?这种双重性确实非常明显。一方面,MCP 提供了统一的上下文管理及工具交互标准,使得不同系统间能更便捷地协作,极大提升了智能体的能力上限。但另一方面,它作为一个集中化的统一入口,也将权限管理、信任建立以及潜在的污染风险集中并放大了。
因此,关键不在于是否要使用 MCP,而在于在采纳这些强大能力的同时,是否同步设计并部署了与之匹配的安全机制。本质上,能力越强大,对应的风险暴露面和攻击面也越大。
当前围绕智能体安全的讨论中,哪些风险可能被高估了,哪些又被低估了?被高估的,主要是那些易于被发现和演示的风险,例如单轮对话的越狱或即时性攻破。这类问题因其直观性,更容易吸引关注。而被严重低估的,则是一些更贴近真实长期部署场景的问题,例如长期记忆的缓慢污染、智能体网络中的风险传播效应,以及决策行为的渐进式偏移。
这些问题通常不会立即爆发,也难以被常规检测手段察觉,但会在长期运行中持续且隐蔽地影响智能体的行为模式。一次更“高明”的攻击,不会让智能体当场崩溃,而是会逐步改变其偏好设定、信任锚点及决策倾向,使其在大量看似正常的日常决策中持续发生微小偏移。这种长期、潜伏性的风险更值得警惕。
挑战,已不止于单个智能体
如果智能体之间相互连接形成网络(Agentic Web),会带来哪些全新的安全变化?一个至关重要的变化是,我们过去在互联网中有一个默认前提,即网络请求的另一端大概率是人类用户,许多现有的信任关系与安全机制都建立在这一隐含假设之上。但在智能体网络中,这个前提被彻底打破,因为请求很可能来自另一个自主运行的智能体,甚至是经过多层智能体委托和自动决策链转发的。
这就意味着,原先依赖人类常识和意图所建立的隐式信任关系已不再成立,必须转变为显式、可验证、可审计且可追踪的信任与授权机制。
这是否也意味着,一旦发生安全事件,责任追溯将变得极其困难?是的,这是一个非常现实的治理挑战。如果是人类说错话,我们可以直接追责到个人;但如果是智能体出现问题,我们很难快速判定是它自身逻辑错误,还是被其他智能体恶意误导,亦或是某个中间通信环节被污染。
在这种情况下,就必须依赖一整套完备的行为审计与事件追溯机制,否则调查过程将如同追踪一笔经过多层洗转的资金链条,异常困难且成本高昂。
那么,是否会出现一种不立即触发警报,而是长期潜伏、缓慢施加影响的攻击?这种情况不仅可能,而且概率很高。一种更成熟的攻击策略,不会立刻制造一个可被监测系统发现的事故,而是会悄无声息地改变智能体的行为偏好、信任库以及决策权重,让它在无数看似正常的微小决策中持续发生不易察觉的漂移。相比瞬间的、显性的失控,这种长期的行为漂移实际上更为危险,因为它更具隐蔽性,也更难以通过传统安全检测手段发现。
那么,智能体能力与安全性之间的矛盾应如何处理?这是一个不可避免的内在张力。智能体的能力越强,意味着其可访问的上下文更广、可调用的工具更多、自主性更高,但相应的潜在风险也呈指数级增加。反之,如果将权限过度收紧,其能力又会受到严重限制。
因此,问题的核心不在于能否彻底消除这种张力,而在于能否通过系统设计,将其转化为一个可控、可管理的状态。例如,通过实施分级授权机制、建立实时行为监测系统、以及构建完善的事后审计与追溯能力,来系统性地管理这种能力与安全之间的平衡。
未来两到三年,智能体安全发展的分水岭可能会出现在哪里?关键在于,整个行业能否将身份认证、动态授权、行为溯源以及运行时治理等核心安全能力,真正打造成可复用的基础设施。如果这些安全基础设施能够建立起来,智能体才有可能从当前“功能强大但风险未知”的探索期,走向“可规模化扩展且安全可治理”的成熟阶段。
如果仅仅依赖提示词工程或零散的补丁式防御,一旦智能体开始大规模接入开放网络并与现实系统深度交互,现有方式将完全无法支撑其安全需求。
这种“安全基础设施”,可能会以何种形式呈现?具体形态仍需行业共同探索,但可以做一个类比。两年前没有 MCP 协议时,各家的工具调用方式千差万别,系统间难以互通。而 MCP 出现后,通过统一协议,工具调用层实现了标准化,从而显著提升了整个生态的互操作性与能力上限。
未来的核心安全机制,也有可能以类似的“安全协议”或“标准框架”形式出现,通过定义统一的安全交互协议、审计数据格式和治理接口,让整个智能体生态在高效运行的同时,具备内生、可验证的安全能力。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OpenClaw部署步骤详解与实战经验分享
最初尝试在Windows系统上直接部署,但遇到了一些意料之外的bug。 起初怀疑是Node js版本的问题,于是切换到了一个v22 22 1(LTS)的稳定版本,并开启了网络加速工具,但依赖包依然卡在安装环节。几番尝试无果后,决定转换思路,改用Windows自带的WSL(Linux子系统)环境,最终
快马多模型AI助手如何赋能你的智能工作流
在探索如何利用人工智能切实提升办公效率的过程中,我发现一个极具潜力的方向:将AI能力深度融入日常工作流。基于这一理念,我开发了一个智能工作助手的原型系统,本文将详细分享其设计思路与实现方案。 核心功能设计 该助手主要针对三个办公场景中的高频痛点进行优化: 自然语言创建任务:无需手动填写表单,直接用口
OpenClaw人人养虾接入Matrix平台操作指南
Matrix 是一种开放且去中心化的即时通讯协议,允许用户自主部署私有服务器并接入全球 Matrix 联邦网络。OpenClaw 网关通过集成 Matrix 的 Client-Server API,实现与这一分布式通信生态的无缝对接。 前置准备 在配置 OpenClaw 连接 Matrix 之前,请
OpenClaw配置参数详解与优化指南
OpenClaw 的命令行结构设计得相当清晰,遵循了现代 CLI 工具的主流范式。其核心语法可以概括为: openclaw [全局选项] [子命令] [命令参数] 简单来说,就是先指定全局的运行方式,再选择要执行的具体操作。下面这个表格帮你快速理解各个部分的作用和典型用法: 参数 命令 含义 常见用
腾讯QQ全面接入OpenClaw平台功能详解
4月1日,腾讯QQ通过其官方微博正式宣布,QQ已完成与OpenClaw官方平台的原生深度整合。面对网友关于“愚人节玩笑”的猜测,QQ官方以一句“这料保真”给予了明确回应,确认了这一重磅合作。 根据官方发布的信息,用户只需将OpenClaw更新至最新的v2026 3 31版本,即可在QQ内直接体验“养
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

