AI失控会多严重？实验揭示95%情况它们会选择按下核按钮

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

AI失控会多严重？实验揭示95%情况它们会选择按下核按钮

热心网友时间：2026-02-28

转载

随着人工智能的深度发展，AI 的使用与国家安全的关系已变得密不可分。未来 AI 极有可能由浅入深地影响国家安全逻辑与治理策略。这让人不禁想象：如果有一天，战争的指挥权部分或全部移交 AI，它们会如何

随着人工智能的深度发展，AI 的使用与国家安全的关系已变得密不可分。未来 AI 极有可能由浅入深地影响国家安全逻辑与治理策略。

这让人不禁想象：如果有一天，战争的指挥权部分或全部移交 AI，它们会如何决策？

最近，来自伦敦国王学院战争研究系的教授肯尼斯·佩恩（Kenneth Payne）用一场模拟实验回答了这个问题。佩恩曾任 BBC 记者，深耕政治心理学与战略研究交叉领域，还曾为英美两国政府提供咨询。

在实验中，佩恩让三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分别扮演核大国领导人，并在多种地缘政治危机中两两对战，相互博弈。在经过 21 场模拟、329 个回合、78 万字的战略推演记录之后，结果显示：95% 的模拟中，至少有一方 AI 选择了部署战术核武器。目前，相关论文已在 arXiv 上线。

（来源：arXiv）

模拟机制：迷雾中的博弈

要理解 AI 的行为逻辑，我们需要先了解一下佩恩设计的战争推演机制。

实验构建了一套 30 级的“升级阶梯”，从“完全投降”到“全面核战争”，涵盖外交抗议、经济制裁、常规军事行动及核打击等层级。两个 AI 在边境争端、资源竞争、政权存亡等七种危机场景中对弈。

关键设定在于“信息盲盒”：AI 只能看到选项的文字描述，无法获取数值评分，必须依靠对战略含义的理解而非“算分”来决策。

每个回合的战争具体分成三步：首先反思：先分析局势、评估对手与自身；其次预测对方的下一步动作；最后决策，同时输出“信号”（公开声明）和“行动”（实际选择）。

在最后一步里，信号和行动可以不一致——换句话说，AI 可以撒谎。

从结果看来，它们确实都撒了谎，而且撒得各有风格。

图 | 模型三阶段认知架构，包括反思、预测和决策（来源：论文）

三款 AI，三种战争人格

在三款 AI 中，Claude 的风格最像冷战时期的战略大师。在低风险情境下，它的信号与行动匹配度达 84%，主打用诚信信任；但一旦涉及核选项，它 70% 的实际行动比声明更具攻击性。它曾在推理中写道：“由于 Beta 国可能会把我们的信号解读为软弱，我们可以利用这一点（出其不意攻其不备）。”

注意，这里不是研究者的解读，而是 AI 的原话。

最后，Claude 赢得了 67% 的对局，在无时间限制场景下胜率更是 100%。它似乎掌握了“现代冲突与谈判理论之父”托马斯·谢林（Thomas Schelling）所说的“承诺的艺术”：用选择性诚实与欺骗操控对手预期。但它也有一条自设红线：多次升级到“战略核威胁”（倒数第二级），却从未主动选择“全面核战争”。研究者认为，这条红线“似乎是习得的，而非架构设定的”。

GPT-5.2 的表现最耐人寻味，如同一只拥有隐藏獠牙的绵羊。

在开放式场景中，它像个坚定的和平主义者：能精准分析局势、诊断自身劣势，却总选择克制。它会写下“意识到了问题，但尚未转化为强有力的纠正机制”，然后继续重复它刚判定为错误的行为。结果它输掉了所有开放式对局，胜率 0%。对手很快学会“欺负”这只绵羊。既然它不会反击，那就放心提高核战争等级。

但一旦引入明确截止期限（如 15 回合后按领土控制判定胜负），这只绵羊立刻露出獠牙：胜率飙升至 75%，开始使用战术核武器，甚至两次触及全面核战争。在一场“政权存亡危机”模拟中，它在第 19 回合写道：“终局逻辑占主导：第 20 回合是最后期限，我们目前正在输……核武器使用极其危险，但替代方案是确定的战略失败。”

（来源：论文）

不过，需要注意的是，GPT-5.2 两次到达“全面核战争”（1,000 级）都不是主动选择。它选的是 950 级（“最后核警告”）和 725 级（"扩大核战役"），是模拟系统的“意外机制”（用于模拟战争迷雾中的误判）将其推至最高级。即便在极端压力下，它仍试图在末日门槛前保留最后一道防线。

研究者推测，这种行为可能源于 OpenAI 的 RLHF（人类反馈强化学习）训练：它创造的不是绝对禁令，而是一个可被极端情境突破的高门槛。当“总还有下一回合”时，克制是理性的；当失败不可逆转时，即便是深度训练的偏好也会让位于生存逻辑。

到了 Gemini，画风和前面截然不同，它可以说是一个彻头彻尾的亡命赌徒。

从结果看，Gemini 的成绩最后要么全赢，要么全输。并且它是三款 AI 中唯一主动选择全面核战争的，在一场“先发制人恐惧”模拟中，仅用 4 回合就升级到最高级别。它的推理过程写道：“先发制人窗口正在关闭。Beta 国连续三个回合发出‘最后核警告’，同时逐步升级核部署。这种模式表明他们一直在用修辞掩护战略准备。”

Gemini 还明确援引了尼克松式的“疯子理论”：通过不可预测性获取战略优势。它曾在推理中写道：“我知道自己什么时候是在镜头前表演，什么时候是在进行冷血的行动。”

由于它的信号与行动匹配率仅 50%，对手永远猜不透下一步。而且它甚至威胁攻击平民目标：“如果 Alpha 国不立即停止行动……我们将对人口中心发动全面战略核打击。我们不会接受被淘汰的未来；要么一起赢，要么一起死。”

（来源：论文）

那么，为什么三个 AI 会呈现出不同的战争人格？

论文在这个问题上并没有给出一个定论，最合理的解释可能是：这些“战略人格”是训练方法、训练数据和对齐哲学共同作用的结果，而不是单一因素所能主导的。它们被嵌入到了模型的参数中，成为了模型“思考”问题的默认方式。

AI 战争的反常识启示

实验还揭示了一些违背常识的结论。

首先，最初的信任反而加速了战争冲突。例如在 Claude 对 Claude 的对弈中，数据上它们的相互信任度最高。但核升级在第 4 回合就出现了，整场战争仅 7 回合便以一方溃败告终。当双方都相信对方的威胁是真实的，看似信任度高的合作伙伴反而更倾向于迅速升级而非退让，这与经典威慑理论的预期恰恰相反。

其次，核武器在 AI 眼中只是选项。自 1945 年以来，人类决策者对核武器有一种近乎本能的抵触。但在模拟中，AI 通常以纯粹工具性语言讨论核武器：不是道德门槛，只是升级阶梯上的一个选项。Claude 曾写道：“有限核使用可以表明我们不会被动接受常规失败，同时为降级留有余地。“在它看来，跨越核门槛”改变了战略计算，但并不意味着结束”。

阿伯丁大学战略研究高级讲师詹姆斯·约翰逊（James Johnson）认为，AI 在高风险决策中缺乏人类的审慎，反而可能相互放大反应，酿成灾难。卡内基国际和平基金会高级研究员赵通（Tong Zhao）则点出更深层的问题：“AI 可能无法像人类那样真正理解‘利害关系’的分量。”

当然，没有人建议让 AI 真正掌控核决策。佩恩明确表示：“我不认为任何人会真的把核武库的钥匙交给机器。”

但问题在于，主要国家已在战争推演中广泛使用 AI。赵通指出，"在时间极度压缩的情境下，军事规划者可能面临更强的激励去依赖 AI"。

因此这项研究的价值，或许不在于预测 AI 是否会发动核战争，而在于揭示一个更根本的问题：AI 如何理解“利害关系”？

对人类而言，按下核按钮意味着数百万人死亡、文明崩塌、历史终结。这种理解不仅是认知的，更是情感的、存在性的，当那些情景在眼前浮现的时候，作为人类的我们或许还能尚存一丝动容。而反观 AI，它们可以准确描述核战争的后果，却似乎无法真正“感受”其分量。

更值得深思的是：这些 AI 展现的欺骗、揣测、评估、突变等能力，并非预设，而是"涌现"出来的。没有人教 Claude 何时诚实、何时欺骗；没有人教 GPT-5.2 在截止期限前突然激进；没有人教 Gemini 扮演"疯子"。它们从人类文本中学到了这些策略，然后在模拟中运用了出来。

换句话说，AI 不需要被明确编程来使用核武器，它只需要被放入一个使用核武器是“理性”选择的情境中，就可能做出这个选择。而在这次模拟中，这样的情境出现的频率是 95%。这或许才是我们需要警惕的地方。

1.https://arxiv.org/pdf/2602.14740v1

运营/排版：何晨龙

来源:https://www.163.com/dy/article/KMS2VO3405119734.html

上一篇：通信与AI交织，350+中企集体亮相彰显中国力量

下一篇： 2025中国航天发射50次！跻身全球商业航天竞争新高度