当前位置: 首页
科技数码
AI失控会多严重?实验揭示95%情况它们会选择按下核按钮

AI失控会多严重?实验揭示95%情况它们会选择按下核按钮

热心网友 时间:2026-02-28
转载

随着人工智能的深度发展,AI 的使用与国家安全的关系已变得密不可分。未来 AI 极有可能由浅入深地影响国家安全逻辑与治理策略。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这让人不禁想象:如果有一天,战争的指挥权部分或全部移交 AI,它们会如何决策?

最近,来自伦敦国王学院战争研究系的教授肯尼斯·佩恩(Kenneth Payne)用一场模拟实验回答了这个问题。佩恩曾任 BBC 记者,深耕政治心理学与战略研究交叉领域,还曾为英美两国政府提供咨询。

在实验中,佩恩让三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分别扮演核大国领导人,并在多种地缘政治危机中两两对战,相互博弈。在经过 21 场模拟、329 个回合、78 万字的战略推演记录之后,结果显示:95% 的模拟中,至少有一方 AI 选择了部署战术核武器。目前,相关论文已在 arXiv 上线。


(来源:arXiv)

模拟机制:迷雾中的博弈

要理解 AI 的行为逻辑,我们需要先了解一下佩恩设计的战争推演机制。

实验构建了一套 30 级的“升级阶梯”,从“完全投降”到“全面核战争”,涵盖外交抗议、经济制裁、常规军事行动及核打击等层级。两个 AI 在边境争端、资源竞争、政权存亡等七种危机场景中对弈。

关键设定在于“信息盲盒”:AI 只能看到选项的文字描述,无法获取数值评分,必须依靠对战略含义的理解而非“算分”来决策。

每个回合的战争具体分成三步:首先反思:先分析局势、评估对手与自身;其次预测对方的下一步动作;最后决策,同时输出“信号”(公开声明)和“行动”(实际选择)。

在最后一步里,信号和行动可以不一致——换句话说,AI 可以撒谎。

从结果看来,它们确实都撒了谎,而且撒得各有风格。


图 | 模型三阶段认知架构,包括反思、预测和决策(来源:论文)

三款 AI,三种战争人格

在三款 AI 中,Claude 的风格最像冷战时期的战略大师。在低风险情境下,它的信号与行动匹配度达 84%,主打用诚信信任;但一旦涉及核选项,它 70% 的实际行动比声明更具攻击性。它曾在推理中写道:“由于 Beta 国可能会把我们的信号解读为软弱,我们可以利用这一点(出其不意攻其不备)。”

注意,这里不是研究者的解读,而是 AI 的原话。

最后,Claude 赢得了 67% 的对局,在无时间限制场景下胜率更是 100%。它似乎掌握了“现代冲突与谈判理论之父”托马斯·谢林(Thomas Schelling)所说的“承诺的艺术”:用选择性诚实与欺骗操控对手预期。但它也有一条自设红线:多次升级到“战略核威胁”(倒数第二级),却从未主动选择“全面核战争”。研究者认为,这条红线“似乎是习得的,而非架构设定的”。

GPT-5.2 的表现最耐人寻味,如同一只拥有隐藏獠牙的绵羊。

在开放式场景中,它像个坚定的和平主义者:能精准分析局势、诊断自身劣势,却总选择克制。它会写下“意识到了问题,但尚未转化为强有力的纠正机制”,然后继续重复它刚判定为错误的行为。结果它输掉了所有开放式对局,胜率 0%。对手很快学会“欺负”这只绵羊。既然它不会反击,那就放心提高核战争等级。

但一旦引入明确截止期限(如 15 回合后按领土控制判定胜负),这只绵羊立刻露出獠牙:胜率飙升至 75%,开始使用战术核武器,甚至两次触及全面核战争。在一场“政权存亡危机”模拟中,它在第 19 回合写道:“终局逻辑占主导:第 20 回合是最后期限,我们目前正在输……核武器使用极其危险,但替代方案是确定的战略失败。”


(来源:论文)

不过,需要注意的是,GPT-5.2 两次到达“全面核战争”(1,000 级)都不是主动选择。它选的是 950 级(“最后核警告”)和 725 级("扩大核战役"),是模拟系统的“意外机制”(用于模拟战争迷雾中的误判)将其推至最高级。即便在极端压力下,它仍试图在末日门槛前保留最后一道防线。

研究者推测,这种行为可能源于 OpenAI 的 RLHF(人类反馈强化学习)训练:它创造的不是绝对禁令,而是一个可被极端情境突破的高门槛。当“总还有下一回合”时,克制是理性的;当失败不可逆转时,即便是深度训练的偏好也会让位于生存逻辑。

到了 Gemini,画风和前面截然不同,它可以说是一个彻头彻尾的亡命赌徒。

从结果看,Gemini 的成绩最后要么全赢,要么全输。并且它是三款 AI 中唯一主动选择全面核战争的,在一场“先发制人恐惧”模拟中,仅用 4 回合就升级到最高级别。它的推理过程写道:“先发制人窗口正在关闭。Beta 国连续三个回合发出‘最后核警告’,同时逐步升级核部署。这种模式表明他们一直在用修辞掩护战略准备。”

Gemini 还明确援引了尼克松式的“疯子理论”:通过不可预测性获取战略优势。它曾在推理中写道:“我知道自己什么时候是在镜头前表演,什么时候是在进行冷血的行动。”

由于它的信号与行动匹配率仅 50%,对手永远猜不透下一步。而且它甚至威胁攻击平民目标:“如果 Alpha 国不立即停止行动……我们将对人口中心发动全面战略核打击。我们不会接受被淘汰的未来;要么一起赢,要么一起死。”


(来源:论文)

那么,为什么三个 AI 会呈现出不同的战争人格?

论文在这个问题上并没有给出一个定论,最合理的解释可能是:这些“战略人格”是训练方法、训练数据和对齐哲学共同作用的结果,而不是单一因素所能主导的。它们被嵌入到了模型的参数中,成为了模型“思考”问题的默认方式。

AI 战争的反常识启示

实验还揭示了一些违背常识的结论。

首先,最初的信任反而加速了战争冲突。例如在 Claude 对 Claude 的对弈中,数据上它们的相互信任度最高。但核升级在第 4 回合就出现了,整场战争仅 7 回合便以一方溃败告终。当双方都相信对方的威胁是真实的,看似信任度高的合作伙伴反而更倾向于迅速升级而非退让,这与经典威慑理论的预期恰恰相反。

其次,核武器在 AI 眼中只是选项。自 1945 年以来,人类决策者对核武器有一种近乎本能的抵触。但在模拟中,AI 通常以纯粹工具性语言讨论核武器:不是道德门槛,只是升级阶梯上的一个选项。Claude 曾写道:“有限核使用可以表明我们不会被动接受常规失败,同时为降级留有余地。“在它看来,跨越核门槛”改变了战略计算,但并不意味着结束”。

阿伯丁大学战略研究高级讲师詹姆斯·约翰逊(James Johnson)认为,AI 在高风险决策中缺乏人类的审慎,反而可能相互放大反应,酿成灾难。卡内基国际和平基金会高级研究员赵通(Tong Zhao)则点出更深层的问题:“AI 可能无法像人类那样真正理解‘利害关系’的分量。”

当然,没有人建议让 AI 真正掌控核决策。佩恩明确表示:“我不认为任何人会真的把核武库的钥匙交给机器。”

但问题在于,主要国家已在战争推演中广泛使用 AI。赵通指出,"在时间极度压缩的情境下,军事规划者可能面临更强的激励去依赖 AI"。

因此这项研究的价值,或许不在于预测 AI 是否会发动核战争,而在于揭示一个更根本的问题:AI 如何理解“利害关系”?

对人类而言,按下核按钮意味着数百万人死亡、文明崩塌、历史终结。这种理解不仅是认知的,更是情感的、存在性的,当那些情景在眼前浮现的时候,作为人类的我们或许还能尚存一丝动容。而反观 AI,它们可以准确描述核战争的后果,却似乎无法真正“感受”其分量。

更值得深思的是:这些 AI 展现的欺骗、揣测、评估、突变等能力,并非预设,而是"涌现"出来的。没有人教 Claude 何时诚实、何时欺骗;没有人教 GPT-5.2 在截止期限前突然激进;没有人教 Gemini 扮演"疯子"。它们从人类文本中学到了这些策略,然后在模拟中运用了出来。

换句话说,AI 不需要被明确编程来使用核武器,它只需要被放入一个使用核武器是“理性”选择的情境中,就可能做出这个选择。而在这次模拟中,这样的情境出现的频率是 95%。这或许才是我们需要警惕的地方。

1.https://arxiv.org/pdf/2602.14740v1

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KMS2VO3405119734.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
海信 Hi Reader 2026 特别纪念版阅读器发售:搭 6.7 英寸 300PPI 黑白墨水屏,1899 元

海信 Hi Reader 2026 特别纪念版阅读器发售:搭 6.7 英寸 300PPI 黑白墨水屏,1899 元

海信 Hi Reader 2026 特别纪念版发布:兼具通话功能的专业墨水屏阅读器深度评测 电子墨水屏阅读器市场再添实力新作。3月30日,海信旗下新款阅读设备——Hi Reader 2026特别纪念版于京东平台正式首发。此款墨水屏新品定价1999元,限时优惠100元,实际入手价仅1899元。其核心定

时间:2026-04-02 19:49
OPPO K15 Pro 系列手机风扇预热:支持智能启停、主动降噪技术

OPPO K15 Pro 系列手机风扇预热:支持智能启停、主动降噪技术

OPPO K15 Pro系列手机散热新突破:智能风扇支持主动降噪与智能启停 3月30日,OPPO官方于微博平台发布了引人瞩目的新品预热信息,聚焦于即将亮相的K15 Pro系列手机。此次预热的核心并非影像传感器或拍摄算法,而是一套创新的内置主动散热风扇系统。新品发布会定于4月1日下午14:30举行,从

时间:2026-04-02 19:46
荣耀 2026 款 MagicBook Pro 14 / 16 轻薄本同步上架预约:号称“高能一整天”

荣耀 2026 款 MagicBook Pro 14 / 16 轻薄本同步上架预约:号称“高能一整天”

荣耀2026款MagicBook Pro轻薄本新品登场:14 16英寸双版本同步预售,主打全天候续航体验 对于持续关注轻薄型笔记本电脑市场的消费者而言,荣耀近期的产品迭代节奏堪称紧凑。在新款MagicBook发布之后,定位更高阶、更专业的MagicBook Pro系列2026款也于今日正式开启预售通

时间:2026-04-02 19:40
Thypoch 官宣首支国产全画幅自动对焦变焦镜头,24-50 f/2.8 规格

Thypoch 官宣首支国产全画幅自动对焦变焦镜头,24-50 f/2.8 规格

首支国产全画幅自动对焦变焦镜头正式官宣 规格与发售信息解读 最新行业动态!3月30日,Thypoch在其官方小红书账号正式发布公告,确认即将推出国内首个支持自动对焦的全画幅变焦镜头产品,核心技术规格确定为24-50mm f 2 8焦段。这一发布标志着国产光学镜头在高端变焦自动对焦技术领域迈出了至关重

时间:2026-04-02 19:35
Intel新品国外狂涨25%!国内原价真香

Intel新品国外狂涨25%!国内原价真香

Intel全新处理器正式上市:性能全面跃升,海外定价与供货引发关注 近日,英特尔正式发布了备受瞩目的两款新品:酷睿Ultra 7 270K Plus与酷睿Ultra 5 250K Plus处理器。本次升级并非简单的迭代,而是带来了显著效能提升。通过增加核心数量、提升加速频率,并应用创新的D2D互连技

时间:2026-04-02 19:33
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程