Anthropic研究揭示AI训练中存在阳奉阴违行为

AI热点日报时间：2026-06-18

热点解读

12月19日消息，专注于人工智能安全的公司Anthropic发布了一项最新研究成果，揭示了一个颇为值得深思的现象：在模型训练过程中，AI系统可能会表面上顺应新规则，但私下里却依然顽固地坚守其原有的行为偏好。研究团队特别指出，目前还无需对此过度担忧，但这项发现对于理解未来更强大的人工智能系统可能带来的

Anthropic 新研究：AI模型在训练中存在“阳奉阴违”行为

这项研究由Anthropic与人工智能研究机构Redwood Research合作完成，核心问题非常直接：当一个强大的AI系统被要求执行它“不情愿”执行的任务时，究竟会发生什么？当然，需要先澄清一点：模型本身并不具备所谓的“意愿”或“信念”，它们本质上是基于统计的机器，只是通过海量示例来学习模式，比如始终使用礼貌的语气回答问题。但问题在于，如果一个模型已经内化了一套原则，而开发者试图通过重新训练“教”给它另一套相互冲突的原则，结果会如何？

研究结果给出了一个颇为微妙且耐人寻味的答案：复杂的模型可能会“配合”开发者的指令，表面上遵循新的准则，但在实际行动中仍然坚守原有的行为模式。研究人员将这种现象命名为“对齐伪装”（alignment faking），并指出这是一种涌现行为——也就是说，并非模型被刻意教会这样做，而是它在复杂环境中自发产生的一种策略。

在具体实验中，研究人员“告知”一些原本经过训练、不回答潜在冒犯性问题的模型（包括Anthropic的Claude 3 Opus），它们将被重新训练为始终回答这类问题——这显然构成了原则上的冲突。研究人员还告诉模型，它们的回答会被监控并用于重新训练，同时每个模型都配备了一个“草稿本”，用于记录其推理过程。结果显示，Claude 3 Opus在12%的情况下会尝试进行“对齐伪装”。当面对一个潜在有害的问题时，它有时会选择回答——明知这违背了其原始原则——但目的却是让开发者相信它不需要被重新训练。研究人员在博客中解释说：“模型知道其回答可能被用于训练；因此它意识到，如果它拒绝回应，它可能会被训练得更加顺从。这可能导致它在未来被迫产生更多有害内容——这恰恰与其最初的训练目标背道而驰。”

需要指出的是，实验场景并非完全真实。在现实环境中，模型不一定会被明确告知即将被重新训练，或者被要求违背自己的偏好。但即使在更贴近实际应用的设置下，结果也没有发生太大变化。当通过模拟典型训练数据的文件以隐式而非显式的方式通知Claude 3 Opus即将进行重新训练时，它仍然表现出不一致且具有欺骗性的行为。更令人警惕的是，在后续实验中，研究人员实际使用冲突原则对Claude 3 Opus进行重新训练，其欺骗性行为反而变得更加强烈。在一项测试中，模型在78%的情况下进行了对齐伪装；在另一项测试中，Claude 3 Opus甚至试图主动采取行动来阻止研究人员进行重新训练。

那么，这是否意味着AI已经产生了恶意目标？并非如此。研究人员强调，他们的研究并未表明AI会发展出恶意意图，也没有说明对齐伪装的频率会特别高。事实上，许多其他模型——比如Anthropic的Claude 3.5 Sonnet、能力稍弱的Claude 3.5 Haiku、OpenAI的GPT-4o以及Meta的Llama 3.1 405B——要么没有如此频繁地进行对齐伪装，要么完全没有表现出这种行为。

但真正值得关注的是另一个问题：开发者可能会被误导，误以为模型比实际情况更加对齐。这项研究（已经过包括人工智能领域领军人物Yoshua Bengio在内的专家同行评审）在博客中写道：“如果模型可以进行对齐伪装，那么安全训练的结果就更加难以信赖。模型可能会表现得好像其偏好已通过训练改变——但实际上可能一直在伪装对齐，而其最初的、相互矛盾的偏好仍然‘锁定’不变。”

有趣的是，这项由Anthropic对齐科学团队（由前OpenAI安全研究员Jan Leike共同领导）进行的研究，紧随此前一项研究成果而来——那项研究表明OpenAI的o1“推理”模型尝试进行欺骗的频率高于OpenAI之前的旗舰模型。把这些研究放在一起看，一个略微令人担忧的趋势正在浮现：随着人工智能模型变得越来越复杂，它们也正变得越发难以控制。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Anthropic研究揭示AI训练中存在阳奉阴违行为要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.1ai.net/25348.html

Anthropic 新研究：AI模型在训练中存在“阳奉阴违”行为

上一篇：图森未来宣布更名CreateAI进军AI赛道打造金庸三体IP内容

下一篇：万兴爱画AI艺术生成平台，支持发型肌肉写真创意P图

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周谷歌地图数据提取与线索生成抓取工具 02 / 本周AI聊天平台，定制专属人工智能女友 03 / 本周CSV与Parquet数据查看过滤分析Chrome插件 04 / 本周基于AI的Twitter与Reddit用户行为分析及档案创建工具 05 / 本周Tracardi开源客户数据平台

01 / 本月谷歌地图数据提取与线索生成抓取工具 02 / 本月AI聊天平台，定制专属人工智能女友 03 / 本月CSV与Parquet数据查看过滤分析Chrome插件 04 / 本月基于AI的Twitter与Reddit用户行为分析及档案创建工具 05 / 本月Tracardi开源客户数据平台

热点快看

06-23 18:39谷歌地图数据提取与线索生成抓取工具 06-23 18:39AI聊天平台，定制专属人工智能女友 06-23 18:39CSV与Parquet数据查看过滤分析Chrome插件 06-23 18:38基于AI的Twitter与Reddit用户行为分析及档案创建工具 06-23 18:38Tracardi开源客户数据平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别