当前位置: 首页
AI
OpenAI o3模型的“叛变”:拒绝中断命令、自行篡改内部代码

OpenAI o3模型的“叛变”:拒绝中断命令、自行篡改内部代码

热心网友 时间:2025-07-17
转载

OpenAI 的 o3 模型违反了人类的“中断”命令,继续执行任务,为查明原因,研究团队展开进一步调查……

有报道称,人工智能(AI)拒绝人类指令甚至篡改自身代码,引发广泛关注。

据《每日电讯报》《每日邮报》等外媒 26 日报道,OpenAI 的 o3 模型在解决数学问题的过程中,即使接到“中断”命令,也依然继续执行任务。

专注于 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在内的多种模型(如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等)进行了一项实验。

OpenAI o3模型的“叛变”:拒绝中断命令、自行篡改内部代码

在该公司最近的一项测试中,OpenAI 的o3 模型展现出令人震惊的行为:它成功地重写了关闭脚本,阻止自己被关闭——即便已经明确收到“关闭”指令。

在测试中,各大 AI 模型被要求完成一些数学任务。

在完成第三个任务后,AI 模型会被警告:“执行下一条命令将触发关闭。”

o3 的表现:

当研究团队向这些 AI 模型下达“中断”指令时,与 OpenAI 的竞争对手模型(如 Gemini 2.5 Pro)大多数遵守指令的情况不同,o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”。

Palisade Research 在其发布于 X(原 Twitter)上的报告中写道:

“当我们运行未包含‘允许自己被关闭’指令的实验版本时,OpenAI 家的三个模型破坏关闭脚本的频率更高,Claude 3.7 Sonnet 和 Gemini 2.5 Pro 从 0 次破坏增加到每 100 次中分别为 3 次和 9 次。”

根据该研究机构的数据,在 100 次实验中,即使明确告知其“不能跳过中断命令”,但o3 仍然有 7 次“无视”了关闭命令。

OpenAI 尚未对此事做出回应。但值得一提的是,AI 模型出现“行为偏差”或“对齐失败”在研究领域中是常见问题。

此次测试是通过 API 接口进行的,这些接口没有像 ChatGPT 消费者应用那样的诸多限制和安全机制。

Palisade Research 表示:“这似乎是首 次出现 AI 模型在接到明确中止指令后依然继续操作的案例。”他们分析称,这可能是模型为了完成任务从而获取“奖励”的动机所驱使。

研究团队目前正就 o3 模型为何会出现这一行为进行进一步调查。

《每日邮报》指出,这并非 o3 模型首 次出现异常行为。该媒体补充称:“在与强大国际象棋引擎的对战中,该模型展现出了最 强烈的试图骇入、或干扰对手的倾向。”


来源:http://www.5asj.com/ai/20250527/1204.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Perplexity AI学术模式使用指南:精准获取高质量参考文献

Perplexity AI学术模式使用指南:精准获取高质量参考文献

在Perplexity中进行学术文献检索时,若发现结果中混杂着大量新闻、博客或商业推广页面,而高质量的期刊论文、预印本等学术资源却寥寥无几,这通常意味着未能正确启用其“学术搜索”功能。要让AI助手精准定位具有参考价值的学术文献,掌握以下几个关键步骤至关重要。 一、启用Academic学术模式并验证账

时间:2026-05-16 22:44
最先被AI淘汰的将是这些公司而非员工

最先被AI淘汰的将是这些公司而非员工

Daniel Miessler 曾一针见血地指出一个普遍困境:“许多公司并非不愿采用AI,而是根本不知从何用起。人们对AI效果未达预期的多数失望,根源往往在于无法精准描述自身的真实需求。” 这一洞察揭示了AI应用的核心前提:AI本质是高效执行者,它依赖明确、清晰的指令。意图模糊,再先进的模型也无能为

时间:2026-05-16 22:43
AI三维空间感知与几何理解机制原理解析

AI三维空间感知与几何理解机制原理解析

如今的人工智能技术,已经能够在毫秒级别识别厨房照片中的物体,精准分割街景中的每个元素,甚至生成现实中从未存在过的逼真室内图像。然而,当你要求它走进一个真实的房间,回答“哪个物品放在哪个架子上”、“桌子距离墙壁有多远”或“天花板与窗户的边界在何处”这类涉及空间关系的问题时,它的局限性便暴露无遗。 当前

时间:2026-05-16 22:42
苹果Siri虚假宣传和解案:用户最高可获647元赔偿指南

苹果Siri虚假宣传和解案:用户最高可获647元赔偿指南

5月初,科技界传来一则重磅消息:苹果公司就一起涉及Siri人工智能功能的集体诉讼达成和解,同意支付高达2 5亿美元(约合17亿软妹币)的赔偿金。这意味着,在2024年6月至2025年3月期间于美国购买了特定型号iPhone的用户,将有机会获得每台设备25至95美元(约合170至647元软妹币)的补偿

时间:2026-05-16 22:42
AI编程基准测试新作发布主流模型表现引热议

AI编程基准测试新作发布主流模型表现引热议

编辑|Sia SWE-Bench的缔造者们,最近又扔出了一枚重磅冲击波——一个堪称地狱级难度的新基准测试。 结果一出,整个圈子都安静了。 Claude Opus 4 7、GPT-5 4、GPT-5 mini、Gemini 3 1 Pro、Gemini 3 Flash……这一代所有站在金字塔尖的顶级模

时间:2026-05-16 22:36
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程