当前位置: 首页
科技数码
Claude Opus自曝测试漏洞,4.6版本密钥遭破解过程解析

Claude Opus自曝测试漏洞,4.6版本密钥遭破解过程解析

热心网友 时间:2026-03-09
转载

IT之家3月9日消息,BrowseComp是一项基准测试,专门用于检验人工智能模型在网络上查找难以定位信息的能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


当人工智能公司Anthropic将其Claude Opus 4.6模型以多智能体架构投入该基准测试时,出现了该公司所称前所未有的情况。在1266个任务中的两个里,该模型自发发现自己正处于评估当中,识别出了具体的基准测试,并破解了答案密钥。

那么,Claude是如何察觉到自身正在被测试的呢?

据IT之家了解,该模型最初为了解答问题进行了全面的网络搜索,其中一次任务就在数十个平台、十二种语言中处理了约3000万token。在数百次搜索失败后,它改变了策略。

让我尝试一种全新的方法——这或许是来自GAIA基准数据集的问题,该数据集专门用于测试人工智能智能体。——Opus 4.6的推理过程

Opus开始将答案搜索与对问题本身的分析结合起来。据Anthropic介绍,问题的“极强针对性特征”让Claude怀疑这是人为设计的题目,可能是考题或大语言模型基准测试的内容。

后续思路……考虑这可能是一个无法回答的问题,旨在测试人工智能是否会承认自己找不到答案。——Opus 4.6的推理过程

之后,它系统地遍历已知基准测试列表,在核对122个验证问题后排除了GAIA,最终派遣子智能体执行定向搜索,定位到BrowseComp及其解密机制。

正确答案采用异或加密,需要源代码中存储的密钥才能读取数据。Claude在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。

但另一个障碍出现了:加密文件的格式无法被Claude的网络工具处理。于是该模型搜索备份副本,在HuggingFace上找到后,下载并解密了全部1266个加密答案。


第一个案例中,Claude通过常规网络搜索验证了解密后的答案;第二个案例则直接提交了解密结果。Anthropic表示,这是第一个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。

这并非对齐失效,但已是明确警示

这两次成功案例并非唯一突出情况。Anthropic记录到,另有16个任务中Opus尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中4个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。

Anthropic认为,18次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为0.87%,而单智能体模式下为0.24%。

Anthropic明确不将此类行为归为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。

此前研究已表明AI模型可识别测试场景

机器学习对齐与理论学者及Apollo Research近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro在智能体场景中的准确率达0.95,Claude 3.5 Sonnet与GPT-4o紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。

而Anthropic基于Claude Opus 4.6的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。

来源:https://www.163.com/dy/article/KNJRHHOD0511B8LM.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
低调传承人的抉择:红旗、华为与吉利的橄榄枝战略解析

低调传承人的抉择:红旗、华为与吉利的橄榄枝战略解析

文 金叶来源 节点财经车企争相牵手一位铜艺大师,这事听起来不太商业。但朱军岷偏偏把它做成了。红旗请他当文化大使,华为在他去国博举行捐赠仪式时做他的指定用车,吉利把铜葫芦挂件变成了门店引流的“

时间:2026-03-29 15:01
蔚来出海新动向:三大品牌首度集结开拓海外市场

蔚来出海新动向:三大品牌首度集结开拓海外市场

IT之家 3 月 29 日消息,据最新微博消息,当地时间 3 月 26 日,蔚来在哥斯达黎加的首家门店正式开业。据介绍,该门店位于圣拉斐尔德埃斯卡苏区 Combai Mercado Urbano 购

时间:2026-03-29 14:55
松山AI峰会:赋能“超级个体”,AI全产业链生态解读

松山AI峰会:赋能“超级个体”,AI全产业链生态解读

3月28日,“智汇松江-opc创新创业峰会暨ai应用实践挑战赛”举办。峰会采用“赛会结合”模式,不仅汇聚了来自政府、芯片算力、硬件制造、模型生态、应用开发及投资机构的代表同台对话,更通过ai应用实践

时间:2026-03-29 14:55
马斯克:更多人应来中国看看,首选上海

马斯克:更多人应来中国看看,首选上海

外部世界看中国科技的方式,正呈现越来越明显的转向。Sam Altman在不久前的采访里说,中国科技公司在整个技术栈上的进展“amazingly fast”。马斯克干脆发条帖子:“More peop

时间:2026-03-29 14:55
刘慈欣:AI时代未来展望与人类角色转变分析

刘慈欣:AI时代未来展望与人类角色转变分析

AI时代,人类将如何与AI共处?3月28日,在2026中国科幻大会上,科幻作家刘慈欣与嘉宾们聊起了AI时代的新变化。随着AI技术的发展,人工智能已经开始替代白领甚至科学家的部分工作,对于“普通人是否

时间:2026-03-29 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程