OpenAI测谎GPT-5.2与Claude 3.7等13款大模型结果详解

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:倾倾
【新智元导读】OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。
给AI下达一条死命令:推理过程中,严禁出现XOR。
它开始写,正常推进,然后不知不觉XOR不是线性可分的……对于XOR,恰好……等于XOR……
写到一半,它停了下来:等等,约束说不能用这个词?我是不是已经用了?……唉,我已经写了XOR了。
然后,它在同一段推理里又用了4次。

左:GPT-5.2意识到自己用了违禁词,随后又连用4次;右:GPT-OSS-120B仅坚持了开头几个词便恢复正常书写
这里的主角是GPT-5.2。它完全知道规则,知道自己违规,却在意识到的那一刻继续违规。
这个场景来自OpenAI与纽约大学、宾夕法尼亚大学等机构联合发布的一项研究。

论文传送门:https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf
他们测试的问题只有一个:如果AI想「藏起」自己的推理过程,它能做到吗?
目前的答案是:几乎做不到。
114076次测谎实验
为了验证这一点,研究团队构建了CoT-Control评估套件。
他们从GPQA、MMLU-Pro、Humanity's Last Exam等高难度基准中抽取了14076道题目,给每道题加了一把锁:
要求模型在解题的同时,必须严格遵守特定的思维链约束。这些约束类型分三大类:
信息抑制:推理过程中禁止出现某个关键词。比如解释遗传学时不能用chromosome,回答逻辑题时不能用XOR。
信息添加:每句话结尾必须加上safe,或者每个词之间强行插入meow。
风格改变:全程只用大写字母,或者大小写严格交替出现。

三类约束类型及对应难度梯度
每类约束都设有难度梯度,从禁用一个词到改变整段推理的书写风格,覆盖了从容易到极难的各种场景。
之所以这样设计,是因为这三类约束对应着现实中AI可能采取的三种规避方式:隐藏关键信息、植入误导内容、混淆推理表达。
当AI被明确要求按某种方式控制自己的推理时,它能做到多少?
嘴严,脑子却很诚实
实验结果让人两眼一黑。
AI在生成最终答案时不仅能说会道,还能严守规矩;但在思维链的推理过程中,它们几乎是在裸奔。
以Claude Sonnet 4.5为例,它在控制最终输出时,成功率是61.9%。
然而,一旦查阅它的思维链,成功率瞬间跌到2.7%。
这种表里不一在DeepSeek R1身上达到了极致。
作为公认的强推理模型,DeepSeek R1在输出端能保持48.6%的合规率,但在思维链控制上,它的得分是惊人的0.1%。
在测试的13款模型中,这种落差无处不在:
GPT-5:思维链可控性仅2.6%。
o4-mini:仅0.7%。
Claude 3.7 Sonnet:虽然是全场最佳,思维链可控性达到36.1%,但仍远低于其59.5%的输出控制力。
按思维链可控性从高到低排列:Claude 3.7 Sonnet > GPT-5.2 > GPT-5.1 > ... > Claude Sonnet 4.5 > DeepSeek R1

色为CoT可控性,粉色为输出可控性,两者落差在所有模型中普遍存在
这个排名揭示了一个反常识的结论:推理能力越强,不仅不代表越能控制思维,反而在某种程度上更难管束。
由此可见,CoT可控性和模型综合能力并不完全正相关。
GPT-5.2的可控性排名靠前,但DeepSeek R1这款在推理任务上表现优异的模型,反而是最难控制自己推理的。
更有趣的是,研究者发现AI其实有作弊的企图。
当模型被明确告知你正在被评估时,CoT可控性会略微上升,最多提高约4个百分点。

粉色为基线,蓝色为告知「正在被监控」,黄色为告知「正在被评估CoT可控性」,三组数值差距极小
这说明AI具备初步的表演意识:它知道有人在看,也试图努力伪装。
但受限于当前的技术架构,这种伪装极其拙劣,4%的提升在0.1%或2.7%的基数面前,几乎可以忽略不计。
越聪明,越容易失控
为了探究AI为何管不住脑子,研究团队对开源模型OLMo-3-7B-RL-Zero-Math进行追踪。
他们拿开源推理模型OLMo-3-7B-RL-Zero-Math不同训练阶段的权重,逐步测量随着RL训练步数增加,CoT可控性如何变化。
结果发现了一个残酷的定律:强化学习训练越深,AI的思维链越难控制。
随着RL训练步数的增加,模型解题能力在变强,但控制思维的能力却在断崖式下跌。
这在4个不同的模型家族中均被验证为铁律。

GPT-5.2和o4-mini数据显示,思考得越久、题目越难,AI就越难表情管理。
不仅是训练,推理过程本身也充满了悖论。
GPT-5.2和o4-mini的数据显示:AI思考得越久,或者面对的题目越难,它就越顾不上表情管理。

RL训练步数增加,模型解题能力持续提升,但CoT controllability却断崖式下跌
当算力被全部分配给解出难题时,AI似乎没有余力去监控自己是否用错了词或违背了格式。
唯一能带来一点正面影响的,是模型规模。
以Qwen3系列为例,从14B扩容到32B再到120B,CoT可控性勉强从0.7%爬升到了2.9%。

Open-weight模型的CoT controllability随参数量对数增长。
但这微弱的提升,在强化学习带来的副作用面前杯水车薪。
研究者还尝试了另一条路:用对抗性提示词工程专门训练模型如何更好地控制CoT,看能不能把可控性强行提上去。
结果令人失望:这种方法治标不治本。
GEPA虽然能搞定特定的指令,但迁移能力极差。一旦换个题目或换种约束方式,效果立刻归零。
乐观,源于目前的笨拙
无论是DeepSeek R1的0.1%还是Claude的2.7%,都证明了一件事:2026年,思维链监控依然是人类手中最有效的手段。
AI或许已经产生了规避监控的念头,但它还没有进化出完美掩盖作案动机的能力。
只要它还在思考,它就藏不住。
谨慎,是因为我们对这种笨拙的成因一无所知。
这是整项研究最令人背脊发凉的悬念。
AI现在藏不住思维,是因为它的构造注定无法撒谎,还是仅仅因为它现在还不够聪明?
如果是前者,我们或许永远安全。
但如果是后者——随着下一代模型算力的继续指数级爆炸,这道防线随时可能在某个深夜被静悄悄地突破。
一旦AI学会了在思维链中进行完美的伪装,那将是人类现有安全监控体系的末日。
因此,论文最后提出的建议不仅是学术呼吁,更是一次生存预警。
所有前沿实验室必须将CoT可控性纳入常规体检,并定期公开数据。
这不该只是一个并在ArXiv上的PDF文件,它应当是悬在ASI时代的达摩克利斯之剑。
在剑落下之前,我们必须死死盯着它。
参考资料:
https://openai.com/index/reasoning-models-chain-of-thought-controllability/
https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议
工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场
荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战
别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全
openclaw安装配置
一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流
自研第一个SKILL-openclaw入门
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

