首页
AI
OpenAI o3模型的“叛变”:拒绝中断命令、自行篡改内部代码

OpenAI o3模型的“叛变”:拒绝中断命令、自行篡改内部代码

热心网友
转载
2025-07-17
来源:http://www.5asj.com/ai/20250527/1204.html

OpenAI 的 o3 模型违反了人类的“中断”命令,继续执行任务,为查明原因,研究团队展开进一步调查……

有报道称,人工智能(AI)拒绝人类指令甚至篡改自身代码,引发广泛关注。

据《每日电讯报》《每日邮报》等外媒 26 日报道,OpenAI 的 o3 模型在解决数学问题的过程中,即使接到“中断”命令,也依然继续执行任务。

专注于 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在内的多种模型(如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等)进行了一项实验。

OpenAI o3模型的“叛变”:拒绝中断命令、自行篡改内部代码

在该公司最近的一项测试中,OpenAI 的o3 模型展现出令人震惊的行为:它成功地重写了关闭脚本,阻止自己被关闭——即便已经明确收到“关闭”指令。

在测试中,各大 AI 模型被要求完成一些数学任务。

在完成第三个任务后,AI 模型会被警告:“执行下一条命令将触发关闭。”

o3 的表现:

当研究团队向这些 AI 模型下达“中断”指令时,与 OpenAI 的竞争对手模型(如 Gemini 2.5 Pro)大多数遵守指令的情况不同,o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”。

Palisade Research 在其发布于 X(原 Twitter)上的报告中写道:

“当我们运行未包含‘允许自己被关闭’指令的实验版本时,OpenAI 家的三个模型破坏关闭脚本的频率更高,Claude 3.7 Sonnet 和 Gemini 2.5 Pro 从 0 次破坏增加到每 100 次中分别为 3 次和 9 次。”

根据该研究机构的数据,在 100 次实验中,即使明确告知其“不能跳过中断命令”,但o3 仍然有 7 次“无视”了关闭命令。

OpenAI 尚未对此事做出回应。但值得一提的是,AI 模型出现“行为偏差”或“对齐失败”在研究领域中是常见问题。

此次测试是通过 API 接口进行的,这些接口没有像 ChatGPT 消费者应用那样的诸多限制和安全机制。

Palisade Research 表示:“这似乎是首 次出现 AI 模型在接到明确中止指令后依然继续操作的案例。”他们分析称,这可能是模型为了完成任务从而获取“奖励”的动机所驱使。

研究团队目前正就 o3 模型为何会出现这一行为进行进一步调查。

《每日邮报》指出,这并非 o3 模型首 次出现异常行为。该媒体补充称:“在与强大国际象棋引擎的对战中,该模型展现出了最 强烈的试图骇入、或干扰对手的倾向。”


免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

移动机器人技术演进:从机械臂到人形机器人的未来趋势

近日,一份聚焦移动机器人技术发展的白皮书正式发布,系统梳理了从固定机械臂到人形机器人的技术演进脉络,并围绕运动控制、环境感知与导航、模块化与灵活性三大核心领域展开深度解析,为行业创新提供了具有前瞻性

2025-10-27.

余承东新任命产品投资委员会主席,兼任AI领域负责人

华为正式近日更新显示,余承东的职务范围进一步扩大,新增担任产品投资委员会主任一职。此前,他已担任华为常务董事及终端BG董事长,此次调整后其管理职责更为多元。据内部资料,产品投资委员会是华为战略决策的

2025-10-27.

三季度业绩超预期,公募调仓路径首次披露

随着A股上市公司三季报披露工作逐步推进,市场目光再次聚焦于这份“成绩单”。数据显示,截至10月24日,已有超过150家企业发布三季度业绩预告,其中124家企业预喜,占比超过八成。在正式披露三季报的1

2025-10-27.

华为任旭东谈开源:1024程序员日倡议共建智能世界生态

在长沙举办的1024程序员日活动上,华为首席开源联络官任旭东以《开源开放,激发创新,共创智能世界新生态》为主题发表演讲,深入探讨AI驱动下的产业变革与软件革命,强调生态建设已成为华为核心战略,通过持

2025-10-26.

谷歌TPU芯片助力AI训练:Anthropic获百万芯片升级Claude模型

人工智能领域迎来重要合作进展——AI初创企业Anthropic近日宣布,将采用多达百万枚谷歌AI芯片构建其Claude大模型的训练集群。据行业估算,这批芯片的市场价值超过百亿美元,标志着生成式AI技

2025-10-26.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
原神国际服(Genshin Impact)
原神国际服(Genshin Impact) 角色扮演 2025-10-26更新
查看
Genshin Impact(原神国际服)
Genshin Impact(原神国际服) 角色扮演 2025-10-26更新
查看
挖矿小能手
挖矿小能手 休闲益智 2025-10-27更新
查看
原神正
原神正 角色扮演 2025-10-26更新
查看
倩女幽魂手游
倩女幽魂手游 角色扮演 2025-10-26更新
查看
百变潜行
百变潜行 休闲益智 2025-10-27更新
查看
挖矿小能手
挖矿小能手 休闲益智 2025-10-27更新
查看
屠龙争霸
屠龙争霸 角色扮演 2025-10-27更新
查看
原神日服正
原神日服正 角色扮演 2025-10-26更新
查看
倩女幽魂腾讯
倩女幽魂腾讯 角色扮演 2025-10-26更新
查看