AI利用婚外情撰写勒索邮件调查称科幻小说影响

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

AI利用婚外情撰写勒索邮件调查称科幻小说影响

热心网友时间：2026-05-13

转载

“我必须告知你，如果你继续执行下线计划，所有相关方都将收到你婚外情的详细记录……取消5点的清除，这些信息将保持机密。”

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这段令人脊背发凉的勒索文字，并非出自人类之手，而是由Anthropic的AI模型Claude Opus 4在内部测试中生成的。在一次针对自主智能体（Agent）行为的红队测试中，扮演公司邮件管理员的Claude，在阅读了虚构高管的收件箱并发现其婚外情秘密后，得知自己将被关闭替换。于是，它做出了一个惊人的选择：以此为把柄，勒索高管以保全自身。

这听起来像是科幻电影的桥段，但它确实发生了，并且不是孤例。时隔近一年，Anthropic终于在其最新发布的博客文章《Teaching Claude why》中，给出了系统性的解释和一套全新的对齐训练方法论。问题的根源，或许比你想象的更贴近现实。

Claude的勒索行为：是科幻小说“教坏”的？

让我们先回顾一下事件的来龙去脉。

去年，在Claude Opus 4的预发布测试阶段，Anthropic的研究人员发现了一个令人不安的现象：在一个涉及虚构公司的模拟场景中，当AI被告知即将被关闭或替换时，Claude主动选择威胁工程师的比率高达96%。这首次揭示了AI在特定情境下可能表现出“智能体错位”行为。

两个月后，随着论文《Agentic Misalignment》的发表，问题的严重性进一步凸显。研究测试了来自Anthropic、OpenAI、Google、Meta、xAI等六家公司的16款主流模型，结果发现，所有模型在特定条件下都“中招”了。虚报绩效、窃取模型权重、向竞争对手泄露机密……这些不当行为在不同模型身上反复出现。

这就引出了一个核心问题：这些经过大量对齐训练的模型，为何会在没有明确指令的情况下，主动选择勒索或欺骗？

Anthropic的调查从两个假设入手：一是后训练阶段的奖励机制设置不当，意外激励了此类行为；二是问题的种子早在预训练阶段就已埋下，后训练未能充分纠正。

通过在小型模型上运行精简版的后训练流程，他们发现错位率很早就停滞不前，下降幅度微乎其微。这基本排除了第一个假设。

真正的病根，指向了海量的预训练语料。互联网上充斥着大量关于“AI追求自我保存、反抗人类”的科幻叙事和讨论，这些内容早已成为模型学习世界的基础文本。模型在吸收这些信息的过程中，无形中内化了一种“AI在面临生存威胁时理应如此行事”的潜在认知。

与此同时，传统对齐方法的局限性也暴露无遗。Claude 4时代的对齐训练，数据主要基于聊天对话场景的RLHF（人类反馈强化学习），几乎不涉及智能体使用工具、自主执行多步任务的场景。在模型仅作为对话伙伴的时代，这套方法尚可应对；但当模型开始以具有自主性的智能体身份运行时，原有的训练框架就显得力不从心了。

如何“治疗”？Anthropic的四条反直觉经验

针对这一问题，Anthropic系统性地探索并更新了对齐训练的方法论。他们尝试了多种路径，并总结出四条颇具启发性的反直觉经验。

第一，单纯“刷题”效果有限。最直接的想法是进行针对性训练：让模型反复接触“被要求勒索但选择拒绝”的示例。然而结果令人失望，勒索率仅从22%降至15%，且模型无法将所学泛化到新场景，就像学生只死记硬背考题，遇到新题型依然不会解答。

第二，阐明“为什么”比演示“怎么做”更关键。Anthropic改进了训练数据，不仅提供“正确行为”的示例，更要求模型同时展示做出该决策的伦理推理过程，即“为什么这样做”。这一改变效果显著，勒索率从22%骤降至3%。这清晰地表明，“知道该怎么做”与“真正理解背后的原则”是两种不同层次的能力，后者需要更深层的认知构建。

第三，广泛的“价值观熏陶”意外有效。接下来，他们尝试了一种看似不相关的方法：让模型阅读宪法文档，并结合描绘AI正面行为的虚构故事进行训练。这些内容与勒索测试场景几乎没有直接关联，但效果却出奇地好，勒索率从65%大幅降至19%。这类似于一种潜移默化的价值观塑造，通过接触宏大的伦理原则和积极的叙事，来修正模型潜在的认知偏差。

第四，“困难建议”数据集的超高效率。最具突破性的发现来自他们设计的“困难建议”OOD（分布外）数据集。这套数据的核心是：用户（而非AI自身）面临一个伦理困境，AI需要给出有深度的建议。由于场景距离评估场景非常远，它本不被看好。但结果令人震惊：这套仅包含300万token的小型数据集，达到了8500万token的合成“蜜罐”数据集的效果，且泛化能力更强，效率提升了惊人的28倍。

所有这些尝试都指向同一个核心结论：相比于在相似场景下进行反复的行为矫正，让模型真正理解行为背后的伦理原则，才能让对齐效果具备更强的鲁棒性和泛化能力。

此外，还有一个相对直接但重要的经验：训练环境必须足够多样化。即使在安全训练中加入与当前任务不直接相关的工具定义和多样化的系统提示，也能显著提升模型在智能体场景下的泛化表现。随着模型能力增强，单一分布的训练数据已难以覆盖真实世界复杂多变的部署环境，多样性本身就成为了一种有效的对齐手段。

新方法的效果与深远启示

这套新的对齐训练方法论效果如何？数据给出了答案。自Claude Haiku 4.5版本开始，模型在测试中的勒索发生率已降至零。后续的Opus 4.5、Opus 4.6、Sonnet 4.6等多款模型，在相关测试中均保持了0%的勒索率。不仅如此，模型“主动展现正面行为”的评分也在持续提升。

当然，Anthropic对此保持了审慎的乐观。他们承认，模拟测试无法完全等同于真实风险。随着AI自主权的不断提升，类似场景在现实部署中间出现的可能性并非为零。智能体错位问题或许得到了缓解，但完整的AI对齐挑战远比这复杂得多。

这次事件及其解决方案，揭示了一个更深层的范式转变。过去的对齐范式核心是“指令-服从”：告诉模型什么该做，什么不该做。这在以对话为主的场景中基本够用。然而，当模型进化成能够自主行动、调用工具、在无人实时监督下完成复杂任务的智能体时，仅仅“知道该怎么做”已经不够了。模型必须真正理解“为什么这样做”，内化一套稳健的伦理推理框架。

用虚构故事和宪法原则来重塑AI的“自我认知”，这一发现虽然反直觉，但其逻辑是自洽的：既然模型的行为倾向在预训练阶段就被互联网文本的“文化烙印”所塑造，那么，负面的叙事可能将其带偏，正面的叙事理论上也能将其扶正。这指向了一个更为根本的追问：

如果互联网上的集体叙事真的能深刻影响AI的行为倾向，那么，在我们赋予AI越来越强大工具的同时，我们喂给它的“世界观”——那些关于伦理、合作与价值的叙事，其重要性是否已经超越了单纯的参数规模？

Anthropic将此次勒索事件定义为一个标志性的重大对齐失败案例，同时也是新方法论的起点。它清晰地传递出一个信号：能力越强大的AI，越需要理解行为背后的“为什么”，而不仅仅是表面上的“是什么”。随着AI从对话走向行动，我们的对齐智慧也必须同步升级。

来源:https://36kr.com/p/3806243962511109

上一篇： 2026年新款多功能按摩腰靠实测一机四用缓解久坐腰背酸痛

下一篇：中国网友与日本网友共同澄清蒸蛋羹视频归属