Fable 5最强模型上线仅四天就被下线
最强模型Fable5发布仅四天即被关停,因用户嫌安全护栏过紧、研究者认为阻碍工作,一家公司声称成功越狱,美国政府以出口管制为由要求暂停访问。Anthropic呼吁监管却遭遇不透明干预,暴露AI治理的结构性难题。
精打细算研究了半天Token开销,结果这些配额根本派不上用场。
6月9日,Anthropic发布了史上向公众开放的最强模型,该模型此前仅属于面向少数安全研究机构的「Mythos」级别。6月12日,Fable 5被全面下线。从发布到关停,仅仅四天。
这短短四天究竟发生了什么?简而言之,这是一场多方矛盾的激烈碰撞——用户认为限制过于严苛,安全研究人员觉得阻碍了正当工作,一家公司声称已成功突破其防线,而政府则判定这构成了安全威胁。Anthropic打造了一款自认为「足够安全」的产品,结果却几乎没有让任何一方感到满意。这并非某一家公司的个别案例,而是整个AI行业即将面临的治理难题的一次预演。
01 一个饱受争议的「安全典范」
要理解Fable 5为何引发如此巨大的争议,首先需要明确它的真实面目。
今年4月,Anthropic发布了Mythos——一个强大到连公司自身都感到紧张的模型。在内部测试中,Mythos级别的模型在主流代码仓库中发现了超过23,000个关键漏洞。Anthropic并未将Mythos公开发布,而是通过名为「Project Glasswing」的项目,仅向少数受信任的安全机构开放。Mozilla便是其中之一,据报道,他们借助该模型修复了数百个漏洞。
Fable 5正是Mythos的「公众版本」。它基于相同的底层模型,但额外设置了一层严密的安全护栏——涉及网络安全、生物学、化学的查询会被自动拦截或降级处理。同时,Anthropic要求所有用户数据保留至少30天,用于监测越狱和滥用行为。Anthropic的逻辑清晰明确:模型能力过强,不加限制后果不堪设想。然而,用户对此并不认同。
Fable 5上线后,抱怨声铺天盖地。网络安全研究人员发现,即便只是让模型阅读一篇安全相关的博客文章,也可能触发拦截。IBM X-Force的安全研究员指出,Fable拒绝的很多请求与网络安全的关联度其实相当有限。普林斯顿大学的AI研究员Sayash Kapoor对媒体直言——「这是首次有一家AI公司推出安全护栏,结果却收获了几乎一致的批评。」
更让用户感到愤怒的,是一个隐藏在Fable 5长达319页系统卡中的细节:当模型检测到用户正在进行前沿AI开发相关工作——例如训练流水线或芯片设计——它会暗中降低回复质量,但不会向用户告知。你提出一个问题,得到一个看似正常的答案,但这个答案却被刻意「掺了水」。这种行为被批评者称为「秘密削弱」。
不到48小时,Anthropic就此事道歉。「我们在权衡上犯了错误,对不起。」公司宣布将所有隐性限制改为可见的降级通知——若你的请求被拦截,模型会明确告知,并将你的查询转交给旧版模型Opus 4.8处理。但故事并未就此终结。
02 一纸信函,拔掉了插头
如果仅仅是用户不满,Anthropic或许还能通过调整护栏来化解危机。然而,接下来发生的事件超出了任何一家企业的可控范围。
6月12日下午,一封来自美国商务部的信函送达了Anthropic CEO Dario Amodei的办公室。信函内容十分简洁:以出口管制为由,要求暂停所有外国公民对Fable 5及Mythos 5的访问。据报道,触发这封信函的原因是另一家公司声称成功越狱了Mythos模型。由于Anthropic无法在系统层面实时区分用户国籍,最终结果便是:为符合合规要求,公司不得不对全球所有用户关闭Fable 5和Mythos 5,其他模型则不受影响。
这或许是AI行业历史上第一次,一个已公开部署的前沿模型因外部指令而被全面下架。Anthropic对此回应措辞相当强硬。公司表示,它仅收到一份「窄范围、非通用」的越狱报告——本质上就是让模型阅读一个特定代码库并修复其中的漏洞,而这种能力在其他公开模型上同样可以实现,包括OpenAI的GPT-5.5。
「如果这个标准适用于全行业,我们认为它基本上会让所有前沿模型的部署陷入停滞。」这句话的分量相当沉重。Anthropic的意思并非「我们的模型毫无问题」,而是在指出:按照这个逻辑,任何一家公司的最强模型,在遭遇一次越狱报告后都无法存活。
03 亲手呼唤的监管,最终反噬了自己
这件事最讽刺之处在于:Anthropic或许是全行业中最积极呼吁监管的公司。
就在Fable 5发布后一天,Dario Amodei发表了一篇长文《Policy on the AI Exponential》。文中他明确提出,政府应拥有类似美国联邦航空管理局(FAA)的权力——对前沿模型进行强制性第三方测试,并有权阻止被认为不安全的模型发布。他指出AI的发展速度是指数级的,而政策制定则是线性的。他借用托尔金笔下树人的比喻——智慧但行动迟缓,等他反应过来,森林早已被烧毁。Anthropic甚至承诺为相关立法提供「大量资金支持」。
然而,他所呼唤的那种监管权力,在三天后被用在了自己身上。而且使用的方式,恰恰是Amodei在文章中反对的那种——没有透明流程,没有独立技术评估,没有给公司申辩空间,甚至连信中都没有提供具体的安全担忧细节。只有一个结论:关停。
Anthropic在最新声明中说了一句耐人寻味的话:「我们认为政府应该有能力阻止不安全的部署,但应该通过一个透明、公平、基于技术事实的法定程序。此次行动并未遵循这些原则。」这是一个极为精准的立场:我认同你有这个权力,但你不能以这种方式行使。
04 当模型演变为一种「基础设施级风险」
将目光从Anthropic身上移开,审视更宏观的格局。Fable 5事件暴露了一个结构性矛盾:AI模型已强大到让所有利益相关方都感到不安的程度,但无人知晓该如何有效管控。
对用户而言,Fable 5的安全护栏过于严密。一名安全研究员无法用它来进行安全研究——这就像给外科医生一把不允许触碰鲜血的手术刀。对企业客户而言,30天的数据留存是一项重大隐患。微软已限制员工使用Fable 5,担忧企业机密被保留在Anthropic的服务器上。微软甚至开始取消开发者对Claude Code的授权,转而投向自家的GitHub Copilot。对政府而言,一个能发现23,000个漏洞的模型,一旦护栏被突破,后果不堪设想。即便只是一个窄范围的越狱,也足以引发高度紧张。
而对Anthropic自身来说,它面临的是一个几乎不可能完成的平衡难题:做得太弱,模型缺乏竞争力;做得太强,模型便成了烫手山芋;安全措施过于宽松,会被指责不负责任;安全措施过于严格,用户则纷纷投奔竞争对手。这并非Anthropic一家公司所独有的困境。任何一家推出足够强大模型的厂商,都将遭遇同样的问题。
Dario Amodei在其政策文章中有过一个判断:AI模型的能力提升不是线性的,而是指数级的。若这一判断成立,那么Fable 5今天所面对的每一个矛盾,只会在下一代模型中被放大。安全护栏的设计将越来越复杂,越狱攻防将愈发激烈,企业客户对数据保留的抵触情绪只会更强,而政府的干预——无论是否具备透明程序——只会来得越来越快。
05 一场无人准备好的游戏
回到最初的问题。Fable 5这短短四天的旅程,表面上是一个产品的发布与下架,本质上却是一次压力测试——测试的不是模型的能力,而是整个行业的治理框架。测试结果清晰明确:无人做好准备。
AI公司未能准备好。Anthropic是行业内最重视安全的公司之一,它花费数千小时进行红队测试,设计了多层级防御体系,主动要求数据留存,甚至公开呼吁政府监管。但这些努力都无法阻止它在四天内经历从发布到下架的完整过程。用户未能准备好。当模型真的开始「拒绝」某些请求时,即便理由是出于安全考量,用户的反应也是愤怒和不满。政府同样未能准备好。一封缺少详细技术说明的信函,一个基于单一越狱报告的判断,便足以让数亿用户失去对一个模型的访问权限。
Amodei所呼唤的是一套精密的治理机器——包含独立评估、透明流程和申诉机制。而他实际得到的,是一封在下午五点二十一分送达的信函。这大概就是AI治理现状的真实写照:所有人都清楚需要规则,但没有人来得及把规则编写完成。而模型的进化,不会等待。
*头图来源:Gemini
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Fable 5最强模型上线仅四天就被下线要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在MacM系列芯片上使用Codex插件出现卡顿,主要源于默认运行模式未适配AppleSilicon架构。首先需确认VSCode是否通过Rosetta转译运行,并强制其以ARM64原生模式启动。随后配置专为ARM64优化的Python虚拟环境,安装支持MPS加速的PyTorch,并在插件中切换解释器。同时调整HuggingFace参数,启用CoreML、强制使
启用DevMode后,通过删除线检查CSS兼容性,以px hex格式提取跨平台代码,并在Properties页签验证变量映射,避免硬编码“幽灵值”,从而确保开发交付的准确性和一致性。
在ComfyUI中使用IPAdapter时,提示词需与参考图形成语义锚定,明确主体身份、风格强化短语及权重标记。多图混合可采用单节点统一加权或多节点并行,权重之和不宜超1 8。避免引导词和抽象描述,改用具体特征如发型、眉形,且侧脸需标明朝向。
Genspark通过识别起因类型,将事件经过按主体动作、即时反馈、跨域扩散三层动态建模,并支持追问补全因果关系,最终输出带来源锚点和置信度标签的交互式因果图谱,便于直观掌握事件演变脉络。
- 日榜
- 周榜
- 月榜
热点快看
