Anthropic公布Fable 5上线方案,为AI越狱定标准
7月1日消息,当地时间周二,Anthropic发布了一篇长文,详细还原了其两款模型——Claude Fable 5和Claude Mythos 5——从被美国出口管制、暂停访问再到恢复上线的全过程。
这并非一篇简单的“恢复服务”公告。真正值得关注的是,Anthropic正试图借这一事件,将“AI模型被越狱到底有多严重”这个模糊问题,打造成一套可量化的行业评分标准。与此同时,前沿模型的发布流程,也在被推入政府预发布测试和安全协作的新轨道。

根据Anthropic的说明,Fable 5将于7月1日起面向全球用户恢复开放,覆盖Claude Platform、Claude.ai、Claude Code和Claude Cowork等主要平台。Pro、Max、Team以及部分Enterprise用户在7月7日前,可将Fable 5用于最多50%的每周使用额度,之后则通过用量积分继续使用。此外,Anthropic表示会尽快在AWS、Google Cloud和Microsoft Foundry上重新开放访问。
相比之下,Mythos 5的恢复范围要小得多。Anthropic透露,在美国政府6月26日批准后,他们已为一组美国机构恢复了Mythos 5的访问,接下来会继续与政府协调,将范围扩大到Glasswing项目中的更多国内及国际合作伙伴。
一次“越狱”报告,引发模型下架
整件事的源头,是6月12日的一纸禁令。
Anthropic称,美国政府当日对Claude Fable 5和Claude Mythos 5实施出口管制,要求限制外国国民访问这两款模型。需要注意的是,这里的“外国国民”不只包括美国境外的用户,也涵盖在美国境内的非美国公民。由于指令立即生效,而Anthropic又无法实时核验所有用户的国籍身份,最后只能选择暂停所有用户的访问。
按照Anthropic的最新复盘,Fable 5和Mythos 5都是在6月9日发布的。两者共享同一套底层模型,但面向的场景截然不同:Fable 5配备了更强的安全防护,面向更广泛的普通用户场景;而Mythos 5的防护相对较少,仅限Project Glasswing项目中少数可信的合作伙伴用于防御性网络安全任务。
美国政府出手的直接导火索,是一份来自亚马逊研究人员的报告。报告称,他们找到了一种绕过Fable 5安全防护的方法,成功让模型识别出了若干软件漏洞,其中一个案例中,模型甚至还生成了演示如何利用这些漏洞的代码。
Anthropic对此的回应是:这件事暴露的是Fable 5安全防护中的一个边界案例,并未释放出Mythos级别的独特网络攻击能力。公司表示,经过测试,Claude Opus 4.8、GPT-5.5、Kimi K2.7等能力更低的模型同样能识别出这些漏洞;在生成单个漏洞的利用演示时,多个模型也给出了类似的结果。
简而言之,Anthropic想要强调的是:这不是Fable 5突然冒出了独有的危险能力,而是安全分类器在一个模糊的边界区域被绕过了。
新分类器能拦住99%以上,但会带来误伤
为了恢复访问,Anthropic专门训练了一个新的安全分类器,来拦截亚马逊报告中所描述的那种行为。

Anthropic称,这个新分类器能够在超过99%的情况下,阻止亚马逊报告中描述的那种具体绕过技巧。被拦截下来的Fable 5请求,会被转交给Claude Opus 4.8处理。美国商务部下属的AI标准与创新中心(CAISI)也介入测试了Anthropic的新旧两套防护方案。

不过,这个修复方案是有代价的。
Anthropic坦承,新分类器在日常编程和调试任务中,会更频繁地误判一些良性请求。换句话说,一些正常的安全研究、代码调试或漏洞分析请求,也可能被系统挡在门外。公司表示后续会持续优化,争取更好地区分真实滥用和合法请求。
这正是Fable 5事件的核心难题:模型能力越强,对防御性安全工作的帮助越大,但同样的能力也容易被用于攻击。厂商面对的问题不只是“能不能拦住坏请求”,更是“会不会误伤好请求”。
Anthropic想给AI越狱分级
这篇长文里最值得关注的,其实不是Fable 5恢复访问的消息,而是Anthropic提出的“AI越狱严重程度框架”。
Anthropic认为,目前行业里缺少一套统一的标准,用来判断某个AI越狱到底有多严重。结果是,每当有新的绕过方法出现,开发者不知道应该多快修复,政府也缺少一致的尺度来判断是否需要介入。
现在,Anthropic正与亚马逊、微软、谷歌以及其他Glasswing合作伙伴一起起草这样一套框架。他们建议从四个维度来评估越狱的风险:
第一,能力增益。越狱之后,模型能不能做到现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有的能力,风险相对较低;如果能显著加速专家级别的攻击,风险就高。
第二,能力范围。同一种越狱方法,是只能解锁一个非常狭窄的任务,还是可以覆盖多种攻击目标和技术路线。
第三,武器化难度。将这个越狱方法转化为真实攻击,需要多少人工投入、提示技巧和反复尝试。如果一两次提示就能稳定成功,风险更高。
第四,可发现性。这种方法是需要专业知识才能找到,还是已经在网上广泛传播开来。
这套框架的意义在于,它试图把“AI越狱”这个容易引发笼统恐慌的话题,拆解成可沟通、可排序、可修复的具体问题。以后模型再被发现漏洞,厂商和政府可以先判断:这是低风险的边界案例,还是必须立刻部署缓解措施的高危越狱。
此外,Anthropic还计划推出一个新的HackerOne项目,让安全研究人员提交Fable 5中潜在的网络安全越狱案例。
前沿模型发布正在变成“政府也要先看”
在长文的最后,Anthropic还给出了一组更长期的承诺:对涉及国家安全相关前沿能力的模型,将向指定的政府合作伙伴提供更早的访问权限,让政府在广泛发布之前测试模型及其配套防护;当出现重要的越狱或滥用模式时,更快地向政府共享信息;同时投入专门的团队和算力,参与AI安全评测与研究。
这意味着,前沿AI模型的发布流程正在发生实质性的变化。
过去,模型发布主要遵循公司的产品节奏:训练、评测、红队测试、上线。而Fable 5事件之后,至少在网络安全等高风险方向上,发布流程可能会多出一层——政府预发布评估、信息共享和风险协商。
对普通用户来说,Fable 5恢复上线当然是个好消息。但对企业客户而言,这次事件留下了一个更现实的提醒:前沿模型的可用性,不只取决于技术和价格,也受制于政策状态。一款模型即使已经发布,也可能因为安全争议而突然暂停,再通过补防护、谈判和政府测试来恢复。
对Anthropic来说,这次复盘既是在解释下架的原因,也是在争夺行业话语权。公司希望外界相信,Fable 5不是失控的模型,而是一个被过度谨慎对待的边界案例;同时,它也试图把行业焦点从“模型能不能被越狱”转向另一个更核心的问题——“越狱的严重程度该怎么判断”。
这或许才是这份公告真正重要的信号。Fable 5重新上线只是结果,而前沿模型以后怎么被测试、怎么被放行、怎么被政府介入,才是这场风波留下的真正新命题。(易句)
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
中国牵头全球首个自动驾驶世界标准 L3/L4上路新阶段
2026年6月,联合国世界车辆法规协调组织通过全球首个自动驾驶技术法规,由中国等多国共同牵头。法规明确L3 L4级系统安全要求、全生命周期管理及测试方法,将于同年7月生效。中国同步推进强制性国家标准,衔接国际规则,推动自动驾驶进入合规新阶段。
当贝耳机Air 1正式发布,AI软硬件一体化全面落地
提到当贝,许多人首先想到的便是“大屏”这一关键词。 这一点并不难理解。从服务超两亿用户的软件生态,到“每卖出两台激光投影,就有一台是当贝”的市场份额,这家智能科技企业在客厅场景中的影响力已十分稳固。然而,当贝的愿景显然不止局限于客厅。近期,当贝正式发布了其首款AI耳机——当贝耳机 Air 1。这绝非
万元起 杜卡迪全新揽途Multistrada V4 Rally上市
杜卡迪全新揽途MultistradaV4Rally上市,起售价23 8万元。搭载V4Grandturismo发动机,标配自动降低装置、Skyhook悬挂及前后雷达,兼顾长途探险与运动性能。翡翠绿版限量10台,售价24 1万元。
美团CEO王兴自公司成立从未卖股且无计划
在6月26日的美团股东大会上,CEO王兴放出了一个相当直白的表态:从公司成立至今,他个人手里的股票一股都没卖过,而且未来也没有任何减持计划。这话放在当前的市场环境下,分量不言而喻。 王兴还专门解释了去年那笔备受关注的股票转让——2024年他将个人持股的10%捐给了一家基金会。他强调,这完全是出于公益
芯明与钧舵机器人正式启动战略合作 深度融合生态共进
1月22日,钧舵机器人与芯明智能等企业签署战略合作协议,旨在从芯片级到系统级融合机械结构、感知与控制算法,打造低成本、高灵活性的智能末端执行器,推动具身智能生态共建。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-05 14:36
2026-07-05 14:36
2026-07-05 14:34
2026-07-05 14:34
2026-07-05 14:34
2026-07-05 14:34
2026-07-05 14:33
2026-07-05 14:33
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

