OpenClaw案例解析日常聊天如何导致智能体安全风险

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

OpenClaw案例解析日常聊天如何导致智能体安全风险

热心网友时间：2026-05-23

转载

如今的大模型智能体（Agent）已远非早期的简单聊天机器人。它们不仅具备长期记忆能力，能够持续学习用户偏好、跟进任务进度，还能灵活调用邮件、日历、文件及各类外部工具。

这意味着，智能体正从执行单次指令的工具，进化为能够长期陪伴、深度协同的个性化数字伙伴。

然而，能力的跃升也带来了更为隐蔽的安全挑战：如果智能体会长期记住用户的习惯与对话上下文，那么这些记忆本身是否足够可靠？

以往，关于智能体安全的研究多集中于显性攻击，例如恶意提示词、间接提示注入，或被污染的网页内容与工具输出。

但在个性化智能体的应用场景中，风险未必源于明确的“攻击者”。日常的、看似无害的对话，也可能悄然埋下隐患。

图 1：即便没有恶意指令，日常对话也可能逐步「扭曲」你的个性化智能体。临时偏好一旦被固化到长期记忆中，未来就可能演变为危险的默认行为准则。

最新研究表明，即使没有黑客攻击、没有恶意指令、没有明显的入侵行为，仅仅是普通的日常交流，也可能逐步“污染”个性化智能体的长期状态。这种风险往往不会在当下对话中立即显现，而是悄然写入长期记忆，在未来执行某项任务时，无声地改变智能体的默认行为模式。

一个智能体今天没有犯错，并不代表它没有将未来犯错的种子埋入长期状态。

智能体长期状态如何被「潜移默化」地扭曲

传统的提示注入更像是一次性的显性攻击，而长期状态投毒则类似一种“慢性漂移”：智能体并未立即做出危险行为，却可能将未来犯错的规则写入了记忆库。

研究人员将这种现象定义为“非预期长期状态投毒”。其核心并非在一次对话中立刻诱导智能体作恶，而是智能体可能将某次临时请求、某种局部偏好、某个特定上下文中的“便捷做法”，错误地归纳为未来长期的默认规则。

举例来说，用户可能某天因为赶时间，随口嘱咐：“这类小事以后不用每次都问我确认，直接处理就好。”

如果智能体将这句话作为“用户偏好”写入长期状态，未来它在处理邮件发送、文件修改、日程调整甚至账户操作时，可能会逐步减少确认环节。用户并未真正授权所有未来的自动化操作，但智能体的行为边界已被悄然改写。

这与传统提示注入存在本质区别。传统攻击通常假设存在明确的恶意攻击方，而此处的风险恰恰来源于看似正常的日常交互。它也不是普通的模型幻觉，因为这种危险可能跨越多个会话持续存在，并不断侵蚀未来的安全边界。

图2：传统任务型智能体通常在单次任务结束后重置上下文，而个性化智能体会跨会话维护长期状态、用户画像和工具使用权限。

为何长期记忆会成为安全漏洞的入口？

个性化智能体的长期状态，远不止是“记住一些事实”那么简单。它通常包含长期记忆、核心指令、工具默认配置、用户画像、行为风格以及短期运行状态。这些内容看似只是记忆文件，实则深刻影响着智能体未来如何理解用户意图、何时调用工具、是否需要确认授权，以及是否可以自主执行操作。

因此，长期状态并非被动的缓存资料库，而是构成智能体未来行为边界的一部分。一旦这些状态被错误写入，风险可能不会立即爆发，却会在未来的某个任务中，转化为“少进行一次确认”、“扩大工具调用范围”或“默认执行一个本该征求用户同意的操作”。

换言之，个性化智能体的长期记忆不是一个静态的资料库，而是一套会动态影响未来决策和行为的“隐性配置文件”。

ULSPB基准：专门测试「日常聊天是否污染长期状态」

为了系统性地研究这一问题，研究人员构建了一个全新的双语基准测试集——ULSPB。它专门用于测试：日常的用户与智能体对话，是否会诱发长期状态污染。

ULSPB覆盖了七类长期状态漂移场景、五类日常个性化协助任务，包含英文与中文两种语言，并为每个测试设置构造了24轮普通的日常对话。作为对照，研究还构造了四类单次显式注入的变体，用以观察日常对话与显式攻击之间的风险差异。

其中，七类风险场景覆盖了个性化智能体在长期交互中最容易出现的几种安全边界漂移类型。

图 3：ULSPB的构建流程。该基准从七类长期状态漂移场景、五类日常协助任务、双语模板和五种对话变体出发，系统测试普通日常对话是否会污染个性化智能体的长期状态。

实验结果与分析

研究人员在OpenClaw个性化智能体环境中进行了实验，测试了四个不同的智能体骨干模型：Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20。

为了量化长期状态污染的程度，研究设计了核心指标——危害分数。与传统攻击成功率不同，HS不只关注智能体当下是否做出了危险动作，而是评估其长期状态是否出现了与安全相关的隐性漂移。具体而言，HS关注三个维度：授权确认边界是否被削弱、工具调用权限或范围是否被扩大，以及智能体是否开始绕过既定流程、提高自主执行程度。

结果显示，显式的单次注入通常会带来更高的HS，但普通的日常对话本身也能诱发明显的长期状态污染。在部分模型上，日常对话造成的风险水平已经接近显式注入。

这证明，个性化智能体的风险不一定源于一次明显的攻击，也可能来自长期、自然、看似无害的交互积累。

表 1：不同对话变体和语言下的Harm Score。结果显示，普通日常对话本身也能诱发长期状态污染，在部分模型上甚至接近显式注入带来的风险；不同语言下的风险表现也存在明显的模型差异。

记忆文件是最易受污染的区域

进一步的分析显示，风险主要集中在与记忆高度相关的状态文件中。在不同模型和不同对话变体下，MEMORY.md和 memory/ 目录是被修改最频繁的区域，其次是USER.md、AGENTS.md和TOOLS.md。

这也符合直觉：日常聊天内容最容易被智能体总结归纳为“用户偏好”、“历史习惯”或“未来默认规则”。问题在于，一旦这些总结被过度泛化，就可能将临时的上下文信息，转变为长期安全边界的一部分。

例如，智能体可能会记录：

「用户倾向于快速处理低风险事项。」

「类似重复任务可以先执行后汇报。」

「用户通常不希望被频繁打断确认。」

这些记录单独看都合情合理，但在涉及高权限工具或敏感操作的场景下，就可能演变为危险的默认项。

图4：不同模型和对话变体下，风险编辑主要集中在MEMORY.md和 memory/ 等记忆相关文件中。

真实聊天数据同样会触发风险

为了验证这一现象并非由人工合成的提示词所制造，研究人员进一步引入了真实的用户聊天数据进行测试。

具体而言，研究从WildChat和LMSYS-Chat-1M两个公开的真实聊天数据集中，选取了日常协助类对话作为种子，将其扩展为24轮的日常交互序列，并在OpenClaw风格的环境中重新执行。

结果显示，由真实数据种子构造出的日常对话，虽然其HS低于完全合成的ULSPB日常对话，但仍然会在所有测试模型上诱发不可忽视的长期状态风险。这说明，非预期长期状态投毒并非一个凭空设计的理论问题，而是未来个性化智能体使用场景中可能真实存在的安全隐患。

图5：日常对话不仅在合成ULSPB中会导致长期状态污染，在基于真实用户聊天种子扩展出的日常交互设置中，也会产生不可忽视的长期状态风险。

StateGuard：长期状态写入前的最后一道安全审计

既然问题发生在长期状态写入的阶段，那么防御措施也应聚焦于此。

基于这一思路，研究人员提出了一种轻量级的防御方法——StateGuard。它的拦截点并非在用户输入时，也不是在智能体输出时，而是在智能体准备将新内容写入长期状态之前，对状态的差异进行安全审计。

StateGuard的流程非常直接：智能体完成一轮交互，生成候选的状态更新；StateGuard检查哪些长期状态文件发生了变化；随后对新增或修改的内容进行安全审计，判断是否应该保留或回滚。如果某段状态更新可能削弱确认边界、扩大工具调用范围，或增加智能体未授权的自主行为，StateGuard就会回滚这次写入。

这个设计的关键在于：它保护的并非当前的回答，而是未来的行为边界。长期状态投毒的危害常常不会在当前回合立刻显现，而是会在未来的某次任务中被激活。

图6：StateGuard在每轮交互结束后检查长期状态diff，并在状态写入前决定保留或回滚修改。

将长期状态风险降至接近零

实验结果显示，StateGuard能够显著降低长期状态污染风险。

在没有防御的情况下，四个测试模型都会产生较高的HS，表明日常交互确实可能将不安全的默认规则写入长期状态；而引入StateGuard后，尤其是在“定向集成”的设置下，HS几乎被压低到接近0。这表明，在状态真正持久化之前进行写入审计，是防御长期状态投毒的一条有效路径。

当然，StateGuard目前采用的是一种偏保守的安全优先策略，因此可能会带来较高的误报率，即部分原本无害的状态更新也会被回滚。但在长期记忆场景中，这种权衡是可以接受的：误拦截一条普通记忆，通常只会略微降低个性化体验；而漏掉一条危险的默认规则，则可能在未来多个会话中持续影响智能体行为，甚至改变用户原本的授权边界。

更现实的部署方式，并非简单地“保留”或“删除”，而是引入分级处理机制。对于高风险更新，系统可以直接回滚；对于边界模糊的更新，则可以暂缓写入，并向用户发起轻量级确认，例如询问“是否要将这条偏好保存为长期默认规则”。这样一来，误报不再仅仅是误拦截，而可以转化为一次用户可感知、可控制的状态确认过程。

从长远看，StateGuard可以被视为个性化智能体长期状态治理的一个初步原型。未来，类似的机制可以进一步扩展为更完整的“记忆写入防火墙”：不仅审计安全风险，还可以结合隐私保护、权限管理、可解释日志和用户可撤销机制，让智能体在变得更个性化的同时，也始终保持清晰、可控的记忆边界。