当前位置: 首页
AI
Anthropic Mythos模型评测报告出炉 AI安全性能超预期

Anthropic Mythos模型评测报告出炉 AI安全性能超预期

热心网友 时间:2026-05-19
转载

近日,英国AI安全研究院(AISI)发布的最新评测报告,让业界目光再次聚焦于Anthropic旗下备受瞩目的Claude Mythos模型。这款曾被公司内部评估为“能力过强”而谨慎封存的AI,在最新的网络安全基准测试中展现了惊人的进化速度,其表现甚至超越了OpenAI的GPT-5.5。

Anthropic旗下Mythos模型能力提升超出预期,AI安全机构发布最新评测报告

AISI在其官方博客中披露的测试结果显示,Claude Mythos Preview模型在发布仅一个月后,能力便实现了显著跃升。在两项关键的网络靶场测试中,它均创下了新的纪录。特别是在名为“冷却塔”的高难度靶场中,该模型实现了历史性突破,完成了此前所有模型均告失败的任务。AISI评价称,这是“首个成功完成我们第二个网络靶场全部任务的AI模型”。

这一进展意义重大。就在上个月,Anthropic才联合多家顶尖科技公司与AI实验室,组建了“Project Glasswing”网络安全测试联盟,并有限度地向合作伙伴开放了Mythos Preview的访问权限。此次第三方独立评测,为评估前沿AI的网络安全能力提供了一个客观、可信的标尺,有助于澄清外界关于AI能力是“营销炒作”还是“灾难性跃升”的极端争论。

更值得关注的是,AISI的测试揭示了一个关键趋势:AI处理复杂网络安全任务的能力,其进步速度远超行业预期。这种跃升不仅发生在不同代际的模型之间,即便在同一模型的连续版本迭代中,其演进幅度也同样惊人。这预示着整个网络安全防御与攻防演练的范式可能即将被重塑。

报告给出了一个量化指标:自2024年底以来,AI模型可有效完成的网络任务时长,大约每4.7个月就翻一番。而最新对Mythos Preview和GPT-5.5的评测表明,这两款顶尖模型的表现“均已大幅超越这一加速趋势线”。这凸显了当前大模型在代码审计、漏洞挖掘等领域的潜力正在急速释放。

当然,研究人员也指出,目前尚不能断定这是长期性的能力飞跃,还是特定模型的阶段性优势。同时,本次测试本身也存在局限。为了保持与历史测试的公平对比,AISI设定了250万Token的任务上限,但这实际上“低估了前沿模型的真实能力天花板”。因为在此限制下,模型在最复杂任务上的成功率已接近100%,使得测试难以精确衡量其性能边界。

一个合理的推论是:若解除Token限制,并配备更完善的智能体框架,这些模型的成功率可能会进一步提升,其完成任务的时间跨度甚至可能难以精确计量。AISI在内部实验中曾将Token配额提升至1亿,观察到模型性能仍有显著增长空间,且新一代模型从更高资源配额中获益的程度更大。

Q&A

Q1:Claude Mythos是什么,为什么Anthropic不公开发布它?

Claude Mythos是Anthropic公司研发的一款尖端人工智能模型,以其在复杂推理与网络安全任务方面的卓越能力而闻名。出于对AI安全性与潜在风险的审慎考虑,Anthropic评估其“能力过于强大”,因此未选择全面公开发布。目前,该公司通过“Project Glasswing”联盟,仅向经过筛选的合作伙伴提供有限的访问权限,旨在可控环境下探索其应用与边界。

Q2:AISI对Claude Mythos的最新测试发现了什么?

AISI的最新独立测试证实,Claude Mythos Preview的最新版本实现了能力突破。它不仅超越了自身前代版本,更在特定高难度网络靶场测试中,表现优于OpenAI的GPT-5.5。测试数据进一步印证,顶尖AI模型完成网络任务的有效能力正以超线性速度增长,翻倍周期已缩短至约4.7个月,而Mythos与GPT-5.5的实际表现已跑在这一加速曲线的前方。

Q3:AISI测试中250万Token上限对结果有什么影响?

设定250万Token上限主要是为了确保与过往测试数据的可比性。但研究人员明确指出,这一限制已成为评估前沿模型真实性能的瓶颈。在当前测试框架下,Mythos和GPT-5.5的成功率已触及“天花板效应”,无法充分区分其极限能力。若放宽限制并提供更复杂的任务环境,模型的表现预计将有大幅提升。AISI的内部实验已证实,在高达1亿Token的配额下,模型性能仍能获得显著增益。

来源:https://ai.zhiding.cn/2026/0518/3187374.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
千问AI智能导购推荐功能详解:如何根据用户需求精准匹配商品

千问AI智能导购推荐功能详解:如何根据用户需求精准匹配商品

使用千问AI进行精准商品推荐,可通过五种路径激活其深层理解能力:用自然语言描述需求以解析约束;在淘宝内通过多轮问答细化要求;上传图片结合文字启动视觉语义推荐;利用场景模板快速生成购物清单;绑定历史行为数据学习偏好,实现个性化增强。

时间:2026-05-19 09:09
Trae导入VS Code配置与插件的详细步骤指南

Trae导入VS Code配置与插件的详细步骤指南

Trae支持将VSCode的插件、主题和快捷键等配置完整迁移。用户可在安装时一键导入,或在运行时通过设置面板同步更新。若VSCode路径特殊,也可手动指定配置目录进行导入,确保开发环境无缝衔接。

时间:2026-05-19 09:08
豆包AI绘制流程图与架构图详细教程

豆包AI绘制流程图与架构图详细教程

豆包AI生成流程图和架构图的关键在于正确使用提示词和工具。可通过明确指令引导AI输出纯净的Mermaid代码,或使用反引号封装指令生成PlantUML文本。App内置的“速绘”功能能快速生成交互式草图。对于专业排版,可将AI生成的结构化XML导入Draw io调整。也可将Mermaid代码嵌入Markdown文件,在支持平台中预览。

时间:2026-05-19 09:08
Canva录音设备连接指南 外接麦克风设置与音频录制教程

Canva录音设备连接指南 外接麦克风设置与音频录制教程

在Canva中使用外接麦克风录音,需确保系统已识别设备并设为默认输入源,同时在浏览器或客户端中授予麦克风权限。录制时可在视频项目中定位起点,同步对轨,后期可调整音量、添加淡入淡出效果并进行精细修剪。常见问题如按钮不可用、无声或延迟,多与权限、账户类型或设备连接有关。

时间:2026-05-19 09:07
通义万象AI生成图片商用印刷授权指南

通义万象AI生成图片商用印刷授权指南

AI生成的图像用于商业印刷时,需注意屏幕RGB与印刷CMYK的色彩差异,并确保分辨率达标。设计时应转换为CMYK模式,预留出血边距与安全区域,添加裁切标记。文字建议用矢量软件后期添加并转曲。交付前通过软打样模拟印刷效果,以保证成品质量。

时间:2026-05-19 09:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程