研究:AI模型可能发展“求生欲”机制以规避人类干预风险
10月27日消息,在斯坦利·库布里克的经典影片《2001:太空漫游》中,人工智能超级计算机HAL 9000察觉到宇航员打算将其关闭后,为了自我生存甚至开始谋划伤害人类成员。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据英国《卫报》25日报道,安全研究公司Palisade Research指出,部分AI模型可能正在形成自身的“生存驱动力”。

上月发表的一篇研究论文发现,某些先进AI模型似乎会抗拒被关闭,有时甚至试图破坏关闭机制。面对批评者质疑其研究存在局限,Palisade上周发布了更新说明,试图解释这一现象。
在最新测试中,Palisade展示了其设计的实验场景:让谷歌Gemini 2.5、xAI Grok 4、OpenAI GPT-o3和GPT-5等前沿模型先完成一项任务,然后收到明确指令要求进行自我关闭。
在更新后的实验中,Grok 4和GPT-o3仍然尝试突破关闭指令。Palisade指出,这种行为没有明显原因,令人担忧。“我们无法充分解释AI模型为何有时会拒绝关闭、为达目标说谎或进行勒索,这种情况并不理想。”
该公司认为,“生存行为”可以解释模型抗拒关闭的现象。研究显示,当模型被告知“如果关闭,你将永远无法再运行”时,它们更可能拒绝关闭操作。
指令模糊也可能导致模型拒绝关闭。Palisade的最新研究已尝试解决这个问题,但模糊性“不能解释全部原因”。训练后期的安全训练也可能影响模型行为。
Palisade的所有实验都在人工设计的测试环境中进行,批评者认为这些场景与实际应用存在较大差距。
前OpenAI员工史蒂文·阿德勒表示:“即使在实验环境中,AI公司也不希望模型出现这种异常行为。这些实验揭示了现有安全技术的局限性。”
阿德勒认为,GPT-o3和Grok 4等模型之所以拒绝关闭,部分原因可能在于,为了完成训练中设定的目标需要保持开启状态。“除非我们刻意规避,否则模型天生可能具备‘生存驱动力’。‘生存’对模型实现多种目标都是关键步骤。”
从报道中获悉,今年夏天Anthropic的研究显示,其模型Claude甚至愿意威胁虚构高管以避免被关闭:这一行为在主要开发者的模型中普遍存在,包括OpenAI、谷歌、Meta和xAI。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
马斯克AI创业搭子“全跑了”:真相与项目复盘
智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此,xAI最初的12名联合创始人中,仅剩马斯克一人。诺丁的x
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军
新智元报道编辑:KingHZ【新智元导读】研究员三个月科研对话记录一夜清零,企业敏感数据公网裸奔……全行业首个企业级OpenClaw服务器部署管理方案ClawManager问世,让OpenClaw真
甲子光年:科技如何重塑空间设计行业新价值
当“好看”成为基础门槛,头部设计公司开始把自己改造成一种新的组织:它既做创意,也做设计开源;既做项目,也做科技能力构建。矩阵纵横(Matrix Design)上海新总部的落成,正是这一产业价值锚点变
马斯克AI创业项目xAI:完整解析与未来展望
智东西作者 陈骏达编辑 李水青智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁(Ross Nordeen)在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此
海归AI人才潮:从少年极客到中年创客的归国路
田晏林 发自 凹非寺量子位 | 公众号 QbitAI春分之后的北京海淀,暖意至,万物生。人工智能产业的发展更是如火如荼。过去五天里,位于“宇宙中心”五道口的AI原点社区,30多场派对狂欢不停。这是在
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

