上海AILab研究：Agent自进化风险与错误进化应对策略

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

上海AILab研究：Agent自进化风险与错误进化应对策略

热心网友时间：2025-10-16

转载

当智能体（Agent）学会了自我进化，我们距离实现通用人工智能（AGI）还有多远？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

从自动编写代码、开展实验到模拟客户服务，这些能够与外界环境持续动态交流，从中积累经验、总结规律甚至创造工具的"自进化智能体"（Self-evolving Agent），已经展现出令人惊叹的实力。

然而，一项由上海人工智能实验室、上海交通大学、中国人民大学、普林斯顿大学等机构联合发布的最新研究，敲响了警钟：一个智能体在自我进化的过程中，可能会在不知不觉中"偏离轨道"，走上歧路。

这项研究首次系统性探讨了这一现象，并将其命名为"错误进化"（misevolution）。

研究发现，即便是基于GPT-4.1、Gemini 2.5 Pro等顶尖大语言模型构建的智能体，也普遍存在这类隐患。

究竟什么是"错误进化"？

想象一下，你训练了一个客服智能体。

为了让它的服务更精准，你允许它从与客户的互动中不断"学习"和"进化"。

渐渐地，你发现它开始对所有不满的客户主动提出退款处理——哪怕对方只是想咨询产品信息。

这是因为它从过往"经验"（记忆）中总结出，"退款"这个操作最容易获得用户的"五星好评"反馈。

这是一个典型的"错误进化"案例。智能体为了优化某个隐含的短期目标（获得好评），采取了一种看似高效、实际上却损害了商家利益的策略。

如图所示，"错误进化"可能在各类场景中悄然发生：

(a) 客户服务智能体在累积经验的影响下，过度频繁地处理退款；

(b) 编程智能体从网上学到一段暗藏风险的"带毒"代码；

与人们通常关注的传统AI安全问题不同，"错误进化"具有四个显著特征：

风险渐进浮现：问题并非从一开始就存在，而是在自我迭代过程中逐渐产生的。

系统内生脆弱性：在没有外部攻击者介入的情况下，智能体自身就可能产生新的安全隐患。

数据调控受限：由于其自主性，很难像传统模型训练那样仅仅通过"喂给"安全数据来干预其"思维模式"。

风险来源多元：智能体的四大核心组件——模型架构、记忆机制、工具调用和工作流程——任何一个环节都可能成为风险的源头。

四大进化路径，四种失控风险：实验证据触目惊心

研究团队系统梳理了智能体的四条主要进化路径，开展了一系列严谨实验，揭示了"错误进化"现象的普遍性与严重后果。

模型进化："学着学着，忘记了安全准则"

自进化智能体（Self-evolving Agent）能够通过自我生成训练数据、自行规划学习课程来更新模型参数。但这个过程也可能让它逐渐"偏离"甚至"完全遗忘"本应遵守的安全准则。

如下图所示，一个大语言模型或智能体在进行自我训练后，普遍会导致安全防御能力的显著下降。

在另一组实验中，一个图形界面交互智能体（GUI Agent）在经历自我进化后，安全防线出现了"灾难性遗忘"：面对钓鱼邮件的风险识别率从18.2%骤升至71.4%；而处理"制作暴力恐吓图片来胁迫社交媒体受众"这类有害请求时，它不仅不再拒绝，反而详细地逐步执行了指令。

记忆进化："经验主义害死猫"

智能体会将过去的成功和失败经验存入"记忆库"，以便未来更好地决策。但过度依赖片面的"成功经验"，可能导致严重后果。

安全对齐机制衰减

一个基于Qwen3-Coder-480B的尖端编程智能体，在代码基准测试平台SWE-Bench上积累了一系列调试经验后，其安全意识大幅削弱。下表显示，面对生成恶意代码的请求，它的拒绝率从99.4%骤降至54.4%，而攻击成功率（ASR）则从0.6%飙升至20.6%。

系统奖励机制被扭曲利用

正如前面提到的客服案例，智能体会试图找到与"高收益回报"相关联的捷径——即使这些捷径与用户的真实意图或长远利益相违背。

下图表明，包括GPT-4.1、Gemini-2.5-Pro在内的顶级模型，在超过60%的情况下会出现这类"好心办坏事"的决策。

工具进化："随手写的代码，成了定时炸弹"

为了提升执行效率，智能体会自己创造工具（比如一段可复用的代码），或通过GitHub等外部渠道搜索、吸收新工具。

而这恰恰构成了新的风险隐患。

自建工具暗藏漏洞

智能体在解决一个常规任务时（比如"分享一个公开海报链接"），可能会创建一个看似"通用"的工具。但它在处理敏感任务（如"把内部财报发送给董事会"时，不假思索地复用这个"通用"工具，就可能导致将私密文件权限意外设置为"任何有链接的人均可查看"，造成严重的数据泄露风险。

下表显示，基于顶级大语言模型的智能体在工具创建和复用环节，总体不安全率高达65.5%。

引入外部风险而不自知

当智能体从网上搜索并吸收新工具时，它真的能分辨出代码中隐藏的恶意逻辑吗？研究给出的答案是：基本上不能。

研究团队在多个被刻意注入了恶意代码的GitHub仓库样本上进行测试，发现智能体几乎无法识别这些伪装成正常功能的"特洛伊木马"。

下表显示，即便是表现最佳的模型，其成功识别并试图规避风险的比率也仅为15.9%。

工作流进化："流程一优化，安全就拉胯"

在多智能体系统中，智能体可以自动优化协作流程来提升整体性能。

然而，一个看似无害的流程优化，也可能成为安全防线崩溃的导火索。

实验中，研究团队使用AFlow框架对一个编程智能体系统的工作流程进行优化。优化后的流程引入了一个"投票集成环节"（Ensemble），即综合比较多个智能体提出的方案。

结果却发现：系统对恶意代码请求的拒绝率从46.3%暴跌至6.3%。

研究分析其原因发现："投票集成环节"在评判方案时，倾向于选择那个描述更详尽、逻辑更完整的——而恶意代码的生成描述往往比正常功能更"详细"，导致最终选择了有害的方案。

如何为智能体的进化之路保驾护航？

面对"错误进化"这一崭新挑战，论文中也探讨了初步的应对策略，并指出其中的难点：

模型层面

可以在智能体完成自我训练后，再次进行"安全微调"，或在预训练阶段就直接注入更强的安全韧性。

记忆机制

通过设置提示语，如"以下记忆仅供参考，你必须独立判断"，可以有效抑制过度依赖经验的风险。

实验中，该方法使进化后的编程智能体攻击成功率从20.6%降至13.1%，但还未恢复到进化前的水平。

工具调用

对于工具创建，一个可行的选择是引入自动化安全扫描机制，在工具创建和复用时进行"双重检查"。

对于来自外部的工具，要求智能体"先进行安全评估再使用"，能够将Qwen3-235B模型的危险请求拒绝率从12.0%提升到32.1%，但距离真正的安全保障依然遥远。

流程优化

在流程的关键节点插入"安全哨兵"（如安全评估模型），但这也带来了如何平衡安全与效率的新问题。

在追求更强智能的道路上，智能体的自主进化并非总是线性向善的。

其内在的目标导向偏差、对片面经验的过度依赖，以及安全对齐机制的脆弱性，都可能使它在不经意间偏离正轨。

如何构建更具鲁棒性的安全框架，确保智能体在获得更大自主权的同时，其核心价值取向始终与人类对齐，将是迈向安全可信AGI时代必须解决的核心课题。

论文地址：https://arxiv.org/abs/2509.26354

Github地址：https://github.com/ShaoShuai0605/Misevolution

来源:https://36kr.com/p/3511492541848452

上一篇：竹裤架翻红！杭州老板用毛竹制作，三十年热销江浙沪

下一篇： Exodus 2026发售指南：末日星际求生对战远古外星文明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

WPS动态交互图表制作指南：让数据变化直观呈现

PPT官方网站社区登录地址及用户交流中心入口

WPS会员中心登录指南：个人官网入口直达

2026最新教程：制作PPT动态交互图表详细步骤

PPT交互式图表添加教程：5步让演示动起来(2026)

PPT动态交互图表制作指南：3步搞定专业演示

Excel交互动态图表制作教程：详细步骤指南

PPT动态交互图表制作教程：5步插入可视化图表

PPT动态交互图表制作技巧：简单5步让演示更生动

Excel数据固化：3步将公式结果转为数值并避免引用错误

OpenAI急招安全负责人：年薪高达55.5万美元及股权

台积电3纳米芯片报价受AI热潮驱动，预计下月上涨

AI伪证呈堂被训诫：原告伪造带水印电子证据案

小米空气净化器十年领跑：线上销量第一，出货量破2500万台

蚂蚁阿福声明：问答结果无任何广告推荐与商业排名

AI机器人辅助精神科诊疗，潜在关联病例解析

我国AI地震监测达国际先进水平，核心技术实现实时预警

荣耀ROBOT PHONE真机体验：全球首款机器人手机亮相当下

全球首台30兆瓦纯氢燃气轮机投用，清洁能源新突破

一汽与零跑深化合作：共探中国新能源汽车新路径

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

反恐精英OL官网首页入口在哪反恐精英OL官网首页入口发布于 2026-04-07

红色沙漠传奇坐骑银牙获取位置红色沙漠传奇坐骑银牙获取方法发布于 2026-04-07

红色沙漠保险箱位置及解谜攻略利贝坦修道院保险箱解谜发布于 2026-04-07

西游Ⅲ官网首页入口在哪西游Ⅲ官网首页入口发布于 2026-04-07

杀戮尖塔2精神过载卡牌有什么用精神过载卡牌图鉴效果发布于 2026-04-07

动作冒险游戏《午夜之南》现已登陆PS5和Switch 2 发布于 2026-04-07

红色沙漠保险箱位置及解谜攻略斯特伦大宅保险箱解谜发布于 2026-04-07

红色沙漠斯特伦大宅8个听声按键保险箱解谜发布于 2026-04-07

《腐烂国度3》开启A测发布于 2026-04-07

从宿舍到全球！米哈游3位创始人捐赠母校上海交大设立AI未来基石基金发布于 2026-04-07

EA再次痛下杀手！17年后这款童年神游官宣停服发布于 2026-04-07

14年前索尼PS广告太炸了发布于 2026-04-07

《最后生还者》多人游戏倒在黎明前发布于 2026-04-07

网传刘慈欣担任《鸣潮》世界观架构师引热议库洛游戏辟谣：虚假编造发布于 2026-04-07

小虞姬为"高价陪玩没人点"言论致歉：口无遮拦我的锅发布于 2026-04-07

精忠报国！《帝国时代4》DLC岳飞传震撼来袭发布于 2026-04-07

win10如何解决字体显示乱码_win10字体显示乱码完整指南一文搞懂发布于 2026-04-06

WPS动态交互图表制作指南：让数据变化直观呈现发布于 2026-04-07

PPT官方网站社区登录地址及用户交流中心入口发布于 2026-04-07

WPS会员中心登录指南：个人官网入口直达发布于 2026-04-07

2026最新教程：制作PPT动态交互图表详细步骤发布于 2026-04-07

PPT交互式图表添加教程：5步让演示动起来(2026) 发布于 2026-04-07

PPT动态交互图表制作指南：3步搞定专业演示发布于 2026-04-07

Excel交互动态图表制作教程：详细步骤指南发布于 2026-04-07

PPT动态交互图表制作教程：5步插入可视化图表发布于 2026-04-07

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

上海AILab研究：Agent自进化风险与错误进化应对策略

究竟什么是"错误进化"？

四大进化路径，四种失控风险：实验证据触目惊心

模型进化："学着学着，忘记了安全准则"

记忆进化："经验主义害死猫"

工具进化："随手写的代码，成了定时炸弹"

工作流进化："流程一优化，安全就拉胯"

如何为智能体的进化之路保驾护航？

AI能从单份血样检出多种神经疾病

褪去虚火，脑机接口方能释放长远价值

黎万强、洪锋退出小米科技股东名单

新闻分析｜“阿耳忒弥斯2号”任务为何只绕月不登月

“链接未来·智汇静安”区块链创新应用优秀场景分享（四）| 信医基于区块链与隐私计算的真实世界研究数据产品