Anthropic Mythos模型评测报告出炉 AI安全性能超预期

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Anthropic Mythos模型评测报告出炉 AI安全性能超预期

热心网友时间：2026-05-19

转载

近日，英国AI安全研究院（AISI）发布的最新评测报告，让业界目光再次聚焦于Anthropic旗下备受瞩目的Claude Mythos模型。这款曾被公司内部评估为“能力过强”而谨慎封存的AI，在最新的网络安全基准测试中展现了惊人的进化速度，其表现甚至超越了OpenAI的GPT-5.5。

Anthropic旗下Mythos模型能力提升超出预期，AI安全机构发布最新评测报告

AISI在其官方博客中披露的测试结果显示，Claude Mythos Preview模型在发布仅一个月后，能力便实现了显著跃升。在两项关键的网络靶场测试中，它均创下了新的纪录。特别是在名为“冷却塔”的高难度靶场中，该模型实现了历史性突破，完成了此前所有模型均告失败的任务。AISI评价称，这是“首个成功完成我们第二个网络靶场全部任务的AI模型”。

这一进展意义重大。就在上个月，Anthropic才联合多家顶尖科技公司与AI实验室，组建了“Project Glasswing”网络安全测试联盟，并有限度地向合作伙伴开放了Mythos Preview的访问权限。此次第三方独立评测，为评估前沿AI的网络安全能力提供了一个客观、可信的标尺，有助于澄清外界关于AI能力是“营销炒作”还是“灾难性跃升”的极端争论。

更值得关注的是，AISI的测试揭示了一个关键趋势：AI处理复杂网络安全任务的能力，其进步速度远超行业预期。这种跃升不仅发生在不同代际的模型之间，即便在同一模型的连续版本迭代中，其演进幅度也同样惊人。这预示着整个网络安全防御与攻防演练的范式可能即将被重塑。

报告给出了一个量化指标：自2024年底以来，AI模型可有效完成的网络任务时长，大约每4.7个月就翻一番。而最新对Mythos Preview和GPT-5.5的评测表明，这两款顶尖模型的表现“均已大幅超越这一加速趋势线”。这凸显了当前大模型在代码审计、漏洞挖掘等领域的潜力正在急速释放。

当然，研究人员也指出，目前尚不能断定这是长期性的能力飞跃，还是特定模型的阶段性优势。同时，本次测试本身也存在局限。为了保持与历史测试的公平对比，AISI设定了250万Token的任务上限，但这实际上“低估了前沿模型的真实能力天花板”。因为在此限制下，模型在最复杂任务上的成功率已接近100%，使得测试难以精确衡量其性能边界。

一个合理的推论是：若解除Token限制，并配备更完善的智能体框架，这些模型的成功率可能会进一步提升，其完成任务的时间跨度甚至可能难以精确计量。AISI在内部实验中曾将Token配额提升至1亿，观察到模型性能仍有显著增长空间，且新一代模型从更高资源配额中获益的程度更大。

Q&A

Q1：Claude Mythos是什么，为什么Anthropic不公开发布它？

Claude Mythos是Anthropic公司研发的一款尖端人工智能模型，以其在复杂推理与网络安全任务方面的卓越能力而闻名。出于对AI安全性与潜在风险的审慎考虑，Anthropic评估其“能力过于强大”，因此未选择全面公开发布。目前，该公司通过“Project Glasswing”联盟，仅向经过筛选的合作伙伴提供有限的访问权限，旨在可控环境下探索其应用与边界。

Q2：AISI对Claude Mythos的最新测试发现了什么？

AISI的最新独立测试证实，Claude Mythos Preview的最新版本实现了能力突破。它不仅超越了自身前代版本，更在特定高难度网络靶场测试中，表现优于OpenAI的GPT-5.5。测试数据进一步印证，顶尖AI模型完成网络任务的有效能力正以超线性速度增长，翻倍周期已缩短至约4.7个月，而Mythos与GPT-5.5的实际表现已跑在这一加速曲线的前方。

Q3：AISI测试中250万Token上限对结果有什么影响？

设定250万Token上限主要是为了确保与过往测试数据的可比性。但研究人员明确指出，这一限制已成为评估前沿模型真实性能的瓶颈。在当前测试框架下，Mythos和GPT-5.5的成功率已触及“天花板效应”，无法充分区分其极限能力。若放宽限制并提供更复杂的任务环境，模型的表现预计将有大幅提升。AISI的内部实验已证实，在高达1亿Token的配额下，模型性能仍能获得显著增益。

来源:https://ai.zhiding.cn/2026/0518/3187374.shtml

上一篇：摩尔线程获贝莱德高瓴等多家国际投资机构调研

下一篇： Spotify听歌历史回顾功能上线限时六周可查看全部记录