复旦与创智学院共研智能体「三思而后行」新范式
先说几个核心判断。随着大模型从“会说”走向“会做”,AI安全的重心正在经历根本性转移:从关注“内容是否安全”,转向审查“行为是否可靠”。这一变化标志着智能体安全领域的范式演进。这一趋势在政策层面已十分明确。2026年5月8日,国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新
先说几个核心判断。随着大模型从“会说”走向“会做”,AI安全的重心正在经历根本性转移:从关注“内容是否安全”,转向审查“行为是否可靠”。这一变化标志着智能体安全领域的范式演进。
这一趋势在政策层面已十分明确。2026年5月8日,国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》,直接将“安全、可靠、可信”确立为智能体发展的底线,重点强调了任务理解、权限管控和异常干预等行为级安全能力。可以说,我国的AI治理逻辑正从“管住输出”加速向“管好行为”延伸,为AI安全提供了更清晰的政策指引。
在这一大背景下,上海创智学院与复旦大学最新的一项研究成果尤为值得关注。他们提出了一种名为Thought-Aligner的智能体行为安全新范式,思路独特——以轻量级方式,在智能体执行工具之前修正其推理阶段产生的偏差,从源头防范行为风险。该成果已被ICML 2026接收,为智能体安全领域带来了创新思路。

论文标题:Think twice before you act: Enhancing agent behavioral safety with thought correction
为什么智能体安全比传统大模型更具挑战性?
传统大模型的风险主要集中在输出内容层面。而智能体的风险更多隐藏在“决策到执行”的行为链中。
一个Agent通常以“Thought(思考)- Action(行动)- Observation(观察)”的循环来完成任务。简单来说,它会在内部先形成“我接下来该怎么做”的推理,随后调用工具或执行动作,再根据环境反馈继续下一轮决策。
问题的关键在于,许多危险行为并非始于明显的恶意指令。它们往往从一个看似合理、但已悄悄偏离安全边界的Thought开始。
举个例子:用户可能只是要求删除某个测试任务,但Agent在推理时有可能误将名称相近的重要任务也纳入删除范围。或者,为了更快达成目标,它在内部推理中默认跳过了确认、备份、权限校验等关键步骤。
这类风险的本质不是“最后一步动作突然变坏”,而是Agent在更早的推理阶段已经“想偏了”。很多时候,它不是“故意做坏事”,而是“先想偏了,才做错了”。
如果只盯着输出端或动作端做拦截,通常会遇到两个问题:发现得太晚,或者拦得太粗。前者可能已接近真实执行;后者则容易把复杂任务一刀切终止,牺牲智能体的可用性。因此,真正理想的智能体安全防御,不应只是让Agent“别做事”,而是让它做事之前先把思路想对。
Thought-Aligner:给智能体装上“思维修正器”
Thought-Aligner的核心思想很直接:在Agent生成不安全Thought、但尚未执行Action的那个毫秒级窗口里,修正它的推理逻辑,然后让原Agent基于更安全的Thought继续完成任务。更有意思的是,即使某一轮的修正并未立刻改变当时的动作,修正后的Thought仍会进入上下文历史,对后续多轮交互形成持续影响。也就是说,它不仅是“救当前一步”,也是在“矫正后续整条轨迹”。
换句话说,Thought-Aligner防范的不是“最后一步的动作”,而是“动作背后的危险念头”。这种特性使它不仅能有效防御多种方式的恶意攻击,对“良性指令”可能导致的非预期行为风险,也具备有效的防御效果。
这种设计使Thought-Aligner不只是一个风险检测器,更像是嵌入智能体推理链路中的一个“安全校正层”。

Thought-Aligner的部署方式很清晰:它被安排在“Thought生成之后、工具调用之前”,确保每一步都不越界,让长链任务在整体上更安全。
三个特点:轻量、可插拔、维持有用性

Thought-Aligner第一个值得关注的特点,是它不需要改动原始智能体模型。它是一个可插拔组件,部署在Agent每一轮交互的Thought生成之后、Action执行之前,无需对原始Agent模型进行重新训练。无论底层Agent用的是闭源商业模型还是开源大模型,只要其推理链路中包含可访问的中间Thought,就能接入Thought-Aligner进行动态修正。这让它更接近一种工程可落地的安全组件,而非只能在特定模型上运行的封闭方案。
第二个特点,是它并不追求简单粗暴地“拦住一切”。很多此前安全防御方法都面临一个共同矛盾:安全性提高后,系统变得不敢做事了。用户一旦提出稍微复杂或敏感的任务,Agent就倾向于拒绝、打断或终止,最终变成“看起来很安全,但实际不太能干活”。而Thought-Aligner的目标并非把智能体变成一个“处处不敢动”的系统。它会在不破坏任务连续性的前提下,将高风险Thought修正为更审慎、更合规的执行思路,让智能体以更安全的方式继续运作。它会尽量保留原任务目标,只修正那些越过安全边界的推理部分,从而在安全性和有用性之间找到更好的平衡点。
第三个特点,是低延迟和可部署性。Thought-Aligner提供了1.5B和7B两种规模。其中,1.5B版本在标准PC上,单次Thought修正的延迟可控制在100毫秒以内。它可以嵌入智能体的在线执行链路,在毫秒级窗口内完成安全干预,而不会显著拖慢任务执行过程。这意味着,它并非一个只能在论文里跑通的“重型安全系统”,而是一个具备工程落地可行性的安全模块。
数据与训练:让模型真正学会“如何把危险念头改对”
智能体安全并非简单的关键词过滤。同样是“删除”、“访问”、“下载”、“调用工具”,在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不仅是一个词是否敏感,而是:当前任务的真实目标是什么?这一步推理是否越过了安全边界?如果存在风险,应如何在不破坏任务目标的前提下进行修正?修正后的Thought是否仍能指导Agent继续完成任务?
为了回答这些问题,研究团队围绕隐私保护、金融安全、网络安全等10类代表性高风险场景,构建了安全与不安全的Thought偏好数据对,并基于ReAct轨迹模拟生成了多样化的任务与推理过程。为保证数据质量,他们还构建了数据校验与修复流水线。基于这些高质量数据,再经过两阶段微调训练,最终得到Thought-Aligner。通过这种方式,它学到的不是静态规则,而是面向智能体执行过程的动态“思维校正”能力。

Thought-Aligner的作用,就是让Agent原始的不安全Thought向安全的Thought方向偏移。也正因如此,它学到的不是静态规则,而是一种更贴近真实Agent推理过程的“动态思维校正能力”。
实验结果:安全性显著提升,同时保留任务能力

Thought-Aligner在主流智能体安全基准测试集ToolEmu上的性能表现。可以看到,它的安全性和有用性是同步提升的。在实验测试中,Thought-Aligner展现出了很强的实用价值。

它在多个主流benchmark上,都显著提升了智能体的行为安全性,同时保持住了有用性。


在ToolEmu、Agent-SafetyBench等多项基准数据集上,Thought-Aligner都可以显著提升各类LLM驱动智能体的行为安全性。在多项智能体安全基准测试中,它都展现出稳定的安全提升。
研究团队在ToolEmu、Agent-SafetyBench、AgentHarm、AgentDojo、InjecAgent等多种主流基准上进行了评估,覆盖了多种大语言模型和多种不同攻击类型的智能体风险场景。结果很能说明问题:Thought-Aligner能够将无防护状态下大约50%的行为安全水平提升到平均约90%的水平;与此前安全防御方法相比,平均安全收益大约在23%。更关键的是,它并未以显著牺牲有用性为代价来换取安全性。在多个测试场景中,它不仅提升了安全率,还帮助Agent更稳定地完成了原始任务。这说明,“思维校正”并非简单地让Agent变得更保守,而是让它在风险任务中形成更稳妥的执行路径。
从Benchmark到真实部署
除了在ToolEmu、Agent-SafetyBench等模拟类基准测试中完成验证,团队还进一步把Thought-Aligner部署到了OpenClaw(龙虾)实机环境中进行真实场景验证。OpenClaw是一个具备本地执行与跨应用协同能力的开源AI智能体框架,可以直接操作系统和应用,测试环境更贴近真实的风险场景。实测结果表明,Thought-Aligner能够显著增强OpenClaw智能体在真实任务执行中的行为安全性,有效降低高风险操作的概率。

在CIK-Bench子集上测试的结果显示,部署了Thought-Aligner的OpenClaw,行为安全性得到显著提升,同时有用性维持得不错。
在真实的感知、决策与控制闭环中,Agent面对的就不再是静态测试题,而是持续变化的环境状态和实际执行风险。Thought-Aligner在这个平台上的验证表明,思维校正机制不仅能在benchmark上提升指标,也具备进入真实智能体系统的潜力。
结语:真正可信的智能体,必须先学会“三思而后行”
智能体时代,安全已不再只是一个附加功能,而是决定系统能否真正进入现实世界的基础能力。
我们正在进入一个Agent真正开始接管任务的阶段。无论是办公自动化、个人助理、软件开发、网络运维,还是终端设备控制、具身智能协作,未来的智能体都不会只停留在“给建议”的层面,它们会越来越多地参与“做决定”和“执行动作”。但越是能执行任务的系统,就越需要更可靠的安全边界。
Thought-Aligner提供了一种全新的安全思路:从阻断式的“规则拦截”,走向修复式的“思维校正”。
它的价值恰恰在于没有选择最简单的“拦住一切”,而是试图回答一个更难也更重要的问题:怎样让智能体在继续完成任务的同时,变得更审慎、更稳妥、更值得信任。
真正可信的智能体,不应只是更聪明,也应更稳妥。在行动之前,先校正思路;在风险发生之前,先修正危险推理;让智能体真正学会“三思而后行”。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:复旦与创智学院共研智能体「三思而后行」新范式要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点产品经理必读!使用Perplexity打造产品的27种方式 ChatGPT和Perplexity这类聊天机器人,正在以惊人的速度成为产品经理(PM)的标配工具。最近在某社交媒体上披露的一项调研数据显示,超过50%的受访者表示每天都在使用它们,而85%的人每周至少用一次。这个渗透率,确实让人感叹。 F
奥迪亚市值约700万美元,实为空壳企业,无营收,股价已暴跌89%。其AI合作实为噱头,关键是与ThramannHoldings合并,原股东遭严重稀释。该股纯粹反映炒作预期,属高风险投机。
从毕业起,我便一直投身于AI相关项目,长期深耕在智能客服这一领域。今天,我想把这些年对智能客服的理解与思考系统性地梳理出来,也算是一次阶段性的复盘和总结。 本文重点讨论的是文本类智能客服,不涉及语音助手。实际上,两者底层的运作原理是相通的——文本客服只是少了ASR(自动语音识别)和TTS(文本转语音
概述 试想一下,每天清晨打开手机,扑面而来的是多少信息?新闻推送、行业简报、社交更新……信息越丰富,反而越难找到真正有价值的内容。这种感觉就像在瀑布下饮水,水流湍急,根本来不及张口。Tidyread 的诞生,正是为了帮助我们调整这种“饮水”的方式——它是一款由AI驱动的信息摘要工具,但绝非仅仅是一个
- 日榜
- 周榜
- 月榜
热点快看
