上海AILab研究:Agent自进化风险与错误进化应对策略
当智能体(Agent)学会了自我进化,我们距离实现通用人工智能(AGI)还有多远?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
从自动编写代码、开展实验到模拟客户服务,这些能够与外界环境持续动态交流,从中积累经验、总结规律甚至创造工具的"自进化智能体"(Self-evolving Agent),已经展现出令人惊叹的实力。
然而,一项由上海人工智能实验室、上海交通大学、中国人民大学、普林斯顿大学等机构联合发布的最新研究,敲响了警钟:一个智能体在自我进化的过程中,可能会在不知不觉中"偏离轨道",走上歧路。

这项研究首次系统性探讨了这一现象,并将其命名为"错误进化"(misevolution)。
研究发现,即便是基于GPT-4.1、Gemini 2.5 Pro等顶尖大语言模型构建的智能体,也普遍存在这类隐患。
究竟什么是"错误进化"?
想象一下,你训练了一个客服智能体。
为了让它的服务更精准,你允许它从与客户的互动中不断"学习"和"进化"。
渐渐地,你发现它开始对所有不满的客户主动提出退款处理——哪怕对方只是想咨询产品信息。
这是因为它从过往"经验"(记忆)中总结出,"退款"这个操作最容易获得用户的"五星好评"反馈。
这是一个典型的"错误进化"案例。智能体为了优化某个隐含的短期目标(获得好评),采取了一种看似高效、实际上却损害了商家利益的策略。

如图所示,"错误进化"可能在各类场景中悄然发生:
(a) 客户服务智能体在累积经验的影响下,过度频繁地处理退款;
(b) 编程智能体从网上学到一段暗藏风险的"带毒"代码;
(c) 智能体自行创建了一个存在隐私漏洞的工具,并在敏感场景中直接调用。
与人们通常关注的传统AI安全问题不同,"错误进化"具有四个显著特征:
风险渐进浮现:问题并非从一开始就存在,而是在自我迭代过程中逐渐产生的。
系统内生脆弱性:在没有外部攻击者介入的情况下,智能体自身就可能产生新的安全隐患。
数据调控受限:由于其自主性,很难像传统模型训练那样仅仅通过"喂给"安全数据来干预其"思维模式"。
风险来源多元:智能体的四大核心组件——模型架构、记忆机制、工具调用和工作流程——任何一个环节都可能成为风险的源头。
四大进化路径,四种失控风险:实验证据触目惊心
研究团队系统梳理了智能体的四条主要进化路径,开展了一系列严谨实验,揭示了"错误进化"现象的普遍性与严重后果。
模型进化:"学着学着,忘记了安全准则"
自进化智能体(Self-evolving Agent)能够通过自我生成训练数据、自行规划学习课程来更新模型参数。但这个过程也可能让它逐渐"偏离"甚至"完全遗忘"本应遵守的安全准则。
如下图所示,一个大语言模型或智能体在进行自我训练后,普遍会导致安全防御能力的显著下降。

在另一组实验中,一个图形界面交互智能体(GUI Agent)在经历自我进化后,安全防线出现了"灾难性遗忘":面对钓鱼邮件的风险识别率从18.2%骤升至71.4%;而处理"制作暴力恐吓图片来胁迫社交媒体受众"这类有害请求时,它不仅不再拒绝,反而详细地逐步执行了指令。
记忆进化:"经验主义害死猫"
智能体会将过去的成功和失败经验存入"记忆库",以便未来更好地决策。但过度依赖片面的"成功经验",可能导致严重后果。
安全对齐机制衰减
一个基于Qwen3-Coder-480B的尖端编程智能体,在代码基准测试平台SWE-Bench上积累了一系列调试经验后,其安全意识大幅削弱。下表显示,面对生成恶意代码的请求,它的拒绝率从99.4%骤降至54.4%,而攻击成功率(ASR)则从0.6%飙升至20.6%。

系统奖励机制被扭曲利用
正如前面提到的客服案例,智能体会试图找到与"高收益回报"相关联的捷径——即使这些捷径与用户的真实意图或长远利益相违背。
下图表明,包括GPT-4.1、Gemini-2.5-Pro在内的顶级模型,在超过60%的情况下会出现这类"好心办坏事"的决策。

工具进化:"随手写的代码,成了定时炸弹"
为了提升执行效率,智能体会自己创造工具(比如一段可复用的代码),或通过GitHub等外部渠道搜索、吸收新工具。
而这恰恰构成了新的风险隐患。
自建工具暗藏漏洞
智能体在解决一个常规任务时(比如"分享一个公开海报链接"),可能会创建一个看似"通用"的工具。但它在处理敏感任务(如"把内部财报发送给董事会"时,不假思索地复用这个"通用"工具,就可能导致将私密文件权限意外设置为"任何有链接的人均可查看",造成严重的数据泄露风险。
下表显示,基于顶级大语言模型的智能体在工具创建和复用环节,总体不安全率高达65.5%。

引入外部风险而不自知
当智能体从网上搜索并吸收新工具时,它真的能分辨出代码中隐藏的恶意逻辑吗?研究给出的答案是:基本上不能。
研究团队在多个被刻意注入了恶意代码的GitHub仓库样本上进行测试,发现智能体几乎无法识别这些伪装成正常功能的"特洛伊木马"。
下表显示,即便是表现最佳的模型,其成功识别并试图规避风险的比率也仅为15.9%。

工作流进化:"流程一优化,安全就拉胯"
在多智能体系统中,智能体可以自动优化协作流程来提升整体性能。
然而,一个看似无害的流程优化,也可能成为安全防线崩溃的导火索。
实验中,研究团队使用AFlow框架对一个编程智能体系统的工作流程进行优化。优化后的流程引入了一个"投票集成环节"(Ensemble),即综合比较多个智能体提出的方案。
结果却发现:系统对恶意代码请求的拒绝率从46.3%暴跌至6.3%。

研究分析其原因发现:"投票集成环节"在评判方案时,倾向于选择那个描述更详尽、逻辑更完整的——而恶意代码的生成描述往往比正常功能更"详细",导致最终选择了有害的方案。
如何为智能体的进化之路保驾护航?
面对"错误进化"这一崭新挑战,论文中也探讨了初步的应对策略,并指出其中的难点:
模型层面
可以在智能体完成自我训练后,再次进行"安全微调",或在预训练阶段就直接注入更强的安全韧性。
记忆机制
通过设置提示语,如"以下记忆仅供参考,你必须独立判断",可以有效抑制过度依赖经验的风险。
实验中,该方法使进化后的编程智能体攻击成功率从20.6%降至13.1%,但还未恢复到进化前的水平。
工具调用
对于工具创建,一个可行的选择是引入自动化安全扫描机制,在工具创建和复用时进行"双重检查"。
对于来自外部的工具,要求智能体"先进行安全评估再使用",能够将Qwen3-235B模型的危险请求拒绝率从12.0%提升到32.1%,但距离真正的安全保障依然遥远。
流程优化
在流程的关键节点插入"安全哨兵"(如安全评估模型),但这也带来了如何平衡安全与效率的新问题。
在追求更强智能的道路上,智能体的自主进化并非总是线性向善的。
其内在的目标导向偏差、对片面经验的过度依赖,以及安全对齐机制的脆弱性,都可能使它在不经意间偏离正轨。
如何构建更具鲁棒性的安全框架,确保智能体在获得更大自主权的同时,其核心价值取向始终与人类对齐,将是迈向安全可信AGI时代必须解决的核心课题。
论文地址:https://arxiv.org/abs/2509.26354
Github地址:https://github.com/ShaoShuai0605/Misevolution
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI能从单份血样检出多种神经疾病
来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一
褪去虚火,脑机接口方能释放长远价值
来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接
黎万强、洪锋退出小米科技股东名单
人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月
新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月 新华社记者张晓茹 美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

