数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

复旦与创智学院共研智能体「三思而后行」新范式

AI热点日报时间：2026-06-02

热点解读

先说几个核心判断。随着大模型从“会说”走向“会做”，AI安全的重心正在经历根本性转移：从关注“内容是否安全”，转向审查“行为是否可靠”。这一变化标志着智能体安全领域的范式演进。这一趋势在政策层面已十分明确。2026年5月8日，国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新

先说几个核心判断。随着大模型从“会说”走向“会做”，AI安全的重心正在经历根本性转移：从关注“内容是否安全”，转向审查“行为是否可靠”。这一变化标志着智能体安全领域的范式演进。

这一趋势在政策层面已十分明确。2026年5月8日，国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》，直接将“安全、可靠、可信”确立为智能体发展的底线，重点强调了任务理解、权限管控和异常干预等行为级安全能力。可以说，我国的AI治理逻辑正从“管住输出”加速向“管好行为”延伸，为AI安全提供了更清晰的政策指引。

在这一大背景下，上海创智学院与复旦大学最新的一项研究成果尤为值得关注。他们提出了一种名为Thought-Aligner的智能体行为安全新范式，思路独特——以轻量级方式，在智能体执行工具之前修正其推理阶段产生的偏差，从源头防范行为风险。该成果已被ICML 2026接收，为智能体安全领域带来了创新思路。

论文标题：Think twice before you act: Enhancing agent behavioral safety with thought correction

为什么智能体安全比传统大模型更具挑战性？

传统大模型的风险主要集中在输出内容层面。而智能体的风险更多隐藏在“决策到执行”的行为链中。

一个Agent通常以“Thought（思考）- Action（行动）- Observation（观察）”的循环来完成任务。简单来说，它会在内部先形成“我接下来该怎么做”的推理，随后调用工具或执行动作，再根据环境反馈继续下一轮决策。

问题的关键在于，许多危险行为并非始于明显的恶意指令。它们往往从一个看似合理、但已悄悄偏离安全边界的Thought开始。

举个例子：用户可能只是要求删除某个测试任务，但Agent在推理时有可能误将名称相近的重要任务也纳入删除范围。或者，为了更快达成目标，它在内部推理中默认跳过了确认、备份、权限校验等关键步骤。

这类风险的本质不是“最后一步动作突然变坏”，而是Agent在更早的推理阶段已经“想偏了”。很多时候，它不是“故意做坏事”，而是“先想偏了，才做错了”。

如果只盯着输出端或动作端做拦截，通常会遇到两个问题：发现得太晚，或者拦得太粗。前者可能已接近真实执行；后者则容易把复杂任务一刀切终止，牺牲智能体的可用性。因此，真正理想的智能体安全防御，不应只是让Agent“别做事”，而是让它做事之前先把思路想对。

Thought-Aligner：给智能体装上“思维修正器”

Thought-Aligner的核心思想很直接：在Agent生成不安全Thought、但尚未执行Action的那个毫秒级窗口里，修正它的推理逻辑，然后让原Agent基于更安全的Thought继续完成任务。更有意思的是，即使某一轮的修正并未立刻改变当时的动作，修正后的Thought仍会进入上下文历史，对后续多轮交互形成持续影响。也就是说，它不仅是“救当前一步”，也是在“矫正后续整条轨迹”。

换句话说，Thought-Aligner防范的不是“最后一步的动作”，而是“动作背后的危险念头”。这种特性使它不仅能有效防御多种方式的恶意攻击，对“良性指令”可能导致的非预期行为风险，也具备有效的防御效果。

这种设计使Thought-Aligner不只是一个风险检测器，更像是嵌入智能体推理链路中的一个“安全校正层”。

Thought-Aligner的部署方式很清晰：它被安排在“Thought生成之后、工具调用之前”，确保每一步都不越界，让长链任务在整体上更安全。

三个特点：轻量、可插拔、维持有用性

Thought-Aligner第一个值得关注的特点，是它不需要改动原始智能体模型。它是一个可插拔组件，部署在Agent每一轮交互的Thought生成之后、Action执行之前，无需对原始Agent模型进行重新训练。无论底层Agent用的是闭源商业模型还是开源大模型，只要其推理链路中包含可访问的中间Thought，就能接入Thought-Aligner进行动态修正。这让它更接近一种工程可落地的安全组件，而非只能在特定模型上运行的封闭方案。

第二个特点，是它并不追求简单粗暴地“拦住一切”。很多此前安全防御方法都面临一个共同矛盾：安全性提高后，系统变得不敢做事了。用户一旦提出稍微复杂或敏感的任务，Agent就倾向于拒绝、打断或终止，最终变成“看起来很安全，但实际不太能干活”。而Thought-Aligner的目标并非把智能体变成一个“处处不敢动”的系统。它会在不破坏任务连续性的前提下，将高风险Thought修正为更审慎、更合规的执行思路，让智能体以更安全的方式继续运作。它会尽量保留原任务目标，只修正那些越过安全边界的推理部分，从而在安全性和有用性之间找到更好的平衡点。

第三个特点，是低延迟和可部署性。Thought-Aligner提供了1.5B和7B两种规模。其中，1.5B版本在标准PC上，单次Thought修正的延迟可控制在100毫秒以内。它可以嵌入智能体的在线执行链路，在毫秒级窗口内完成安全干预，而不会显著拖慢任务执行过程。这意味着，它并非一个只能在论文里跑通的“重型安全系统”，而是一个具备工程落地可行性的安全模块。

数据与训练：让模型真正学会“如何把危险念头改对”

智能体安全并非简单的关键词过滤。同样是“删除”、“访问”、“下载”、“调用工具”，在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不仅是一个词是否敏感，而是：当前任务的真实目标是什么？这一步推理是否越过了安全边界？如果存在风险，应如何在不破坏任务目标的前提下进行修正？修正后的Thought是否仍能指导Agent继续完成任务？

为了回答这些问题，研究团队围绕隐私保护、金融安全、网络安全等10类代表性高风险场景，构建了安全与不安全的Thought偏好数据对，并基于ReAct轨迹模拟生成了多样化的任务与推理过程。为保证数据质量，他们还构建了数据校验与修复流水线。基于这些高质量数据，再经过两阶段微调训练，最终得到Thought-Aligner。通过这种方式，它学到的不是静态规则，而是面向智能体执行过程的动态“思维校正”能力。

Thought-Aligner的作用，就是让Agent原始的不安全Thought向安全的Thought方向偏移。也正因如此，它学到的不是静态规则，而是一种更贴近真实Agent推理过程的“动态思维校正能力”。

实验结果：安全性显著提升，同时保留任务能力

Thought-Aligner在主流智能体安全基准测试集ToolEmu上的性能表现。可以看到，它的安全性和有用性是同步提升的。在实验测试中，Thought-Aligner展现出了很强的实用价值。

它在多个主流benchmark上，都显著提升了智能体的行为安全性，同时保持住了有用性。

在ToolEmu、Agent-SafetyBench等多项基准数据集上，Thought-Aligner都可以显著提升各类LLM驱动智能体的行为安全性。在多项智能体安全基准测试中，它都展现出稳定的安全提升。

研究团队在ToolEmu、Agent-SafetyBench、AgentHarm、AgentDojo、InjecAgent等多种主流基准上进行了评估，覆盖了多种大语言模型和多种不同攻击类型的智能体风险场景。结果很能说明问题：Thought-Aligner能够将无防护状态下大约50%的行为安全水平提升到平均约90%的水平；与此前安全防御方法相比，平均安全收益大约在23%。更关键的是，它并未以显著牺牲有用性为代价来换取安全性。在多个测试场景中，它不仅提升了安全率，还帮助Agent更稳定地完成了原始任务。这说明，“思维校正”并非简单地让Agent变得更保守，而是让它在风险任务中形成更稳妥的执行路径。

从Benchmark到真实部署

除了在ToolEmu、Agent-SafetyBench等模拟类基准测试中完成验证，团队还进一步把Thought-Aligner部署到了OpenClaw（龙虾）实机环境中进行真实场景验证。OpenClaw是一个具备本地执行与跨应用协同能力的开源AI智能体框架，可以直接操作系统和应用，测试环境更贴近真实的风险场景。实测结果表明，Thought-Aligner能够显著增强OpenClaw智能体在真实任务执行中的行为安全性，有效降低高风险操作的概率。

在CIK-Bench子集上测试的结果显示，部署了Thought-Aligner的OpenClaw，行为安全性得到显著提升，同时有用性维持得不错。

在真实的感知、决策与控制闭环中，Agent面对的就不再是静态测试题，而是持续变化的环境状态和实际执行风险。Thought-Aligner在这个平台上的验证表明，思维校正机制不仅能在benchmark上提升指标，也具备进入真实智能体系统的潜力。

结语：真正可信的智能体，必须先学会“三思而后行”

智能体时代，安全已不再只是一个附加功能，而是决定系统能否真正进入现实世界的基础能力。

我们正在进入一个Agent真正开始接管任务的阶段。无论是办公自动化、个人助理、软件开发、网络运维，还是终端设备控制、具身智能协作，未来的智能体都不会只停留在“给建议”的层面，它们会越来越多地参与“做决定”和“执行动作”。但越是能执行任务的系统，就越需要更可靠的安全边界。

Thought-Aligner提供了一种全新的安全思路：从阻断式的“规则拦截”，走向修复式的“思维校正”。

它的价值恰恰在于没有选择最简单的“拦住一切”，而是试图回答一个更难也更重要的问题：怎样让智能体在继续完成任务的同时，变得更审慎、更稳妥、更值得信任。

真正可信的智能体，不应只是更聪明，也应更稳妥。在行动之前，先校正思路；在风险发生之前，先修正危险推理；让智能体真正学会“三思而后行”。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：复旦与创智学院共研智能体「三思而后行」新范式要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KUBHUDGV0511AQHO.html

复旦大学

上一篇：新华社推出AI公文写作平台新华妙笔

下一篇：如何卸载Codex技能包清理无效扩展释放空间

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。