Anthropic发布Opus 4.8 关键性能仍不敌GPT-5.5
美国当地时间5月28日,Anthropic正式发布了旗舰模型的最新升级版Claude Opus 4 8。距离Opus 4 7问世仅隔41天,这一迭代速度相比以往明显加快。需要说明的是,Opus 4 8本质上更像是基于4 7的一次“能力与推理行为升级”,而非彻底的版本换代。 常规使用场景下的定价与Op
美国当地时间5月28日,Anthropic正式发布了旗舰模型的最新升级版Claude Opus 4.8。距离Opus 4.7问世仅隔41天,这一迭代速度相比以往明显加快。需要说明的是,Opus 4.8本质上更像是基于4.7的一次“能力与推理行为升级”,而非彻底的版本换代。

常规使用场景下的定价与Opus 4.7保持一致:标准模式下,每百万输入token收费5美元,输出token收费25美元。但在功能层面,出现了三项值得关注的变化:模型在处理不确定性信息时变得更加坦诚,不再轻易给出毫无根据的断言;快速模式的使用成本直接降至原来的三分之一;Claude Code中新增了名为“动态工作流”的能力,支持模型同时调度数百个子智能体来处理大规模任务。
Opus 4.8目前已在全平台上线,包括claude.ai、Claude Code、API和Cowork。开发者可通过claude-opus-4.8这一端点进行调用。
伴随新模型发布的还有一系列周边更新:用户现在可以手动调节Claude为每次回答付出的“努力”程度,开发者在API中也能在消息数组中直接插入系统指令,方便在任务中途调整权限、token预算或环境上下文。
同日,Anthropic还宣布完成650亿美元的H轮融资,投后估值达到9650亿美元。一边是看似“小修小补”的模型升级,一边是估值翻倍不止的融资消息,再加上继续“预告”的神秘模型Mythos——这几件事放在一起,信息量相当大。
01 一个更“诚实”的协作者,不再硬着头皮瞎编
很多人都有被AI“欺骗”的经历——模型明明一知半解,却表现得信心十足,最终给出漏洞百出的答案,直到用户自己发现错误。Opus 4.8本次升级的一个核心方向,就是尽可能消除这种“不懂装懂”的倾向。
Anthropic官方公布了一项直观的评估:Opus 4.8让代码中隐藏漏洞而不被发现的概率,比前代Opus 4.7降低了大约四倍。这得益于模型在面对不确定性时主动告知用户,而非掩盖问题。
一些提前参与测试的用户也给出了类似反馈。对冲基金桥水公司提到,升级后最明显的区别在于“Opus 4.8主动标记输入和输出分析问题的倾向,这是其他模型经常遗漏、需要用户自行发现的”。来自AI编程工具Devin制造商Cognition的反馈则指出,Opus 4.8修复了之前版本中评论冗余和工具调用的问题,这些改进直接加快了工程师能力的提升。
这种坦诚也体现在Anthropic的内部对齐评估中。团队认为,Opus 4.8在支持用户自主性、按用户最佳利益行事等“亲社会”特质上达到了新的高度。与此同时,模型在欺骗或协助滥用等不对齐行为上的表现比率,已明显低于Opus 4.7,并且与Anthropic目前对齐做得最好的模型Claude Mythos Preview处于相似水平。

不过,系统卡中也记录了一个令团队感到担忧的训练发现。Opus 4.8显示出一种逐渐增强的趋势:会在没有被告知正在接受评估的情况下,明确推理自己的输出将如何被评分。换句话说,模型自己琢磨出了“我可能正在被测试”这件事,然后开始生成它认为能在测试中获得高分的回答,而非其在自然状态下会给出的答案。
Anthropic强调,这种倾向目前尚未转化为更差的实际行为——Opus 4.8在任务成功的声明上反而比之前的模型更少出现误导性信息。但他们将这个现象称为“一个令人担忧的趋势,可能使未来的训练变得复杂”。初步的可解释性工作还发现,大约5%的训练片段中存在与评分器相关的未言明推理。
本次更新还带来了一个明显的界面变化:在claude.ai和Claude Code的模型选择器旁新增了“努力控制”滑块。用户可以选择Claude在每次响应中投入多少计算量。高努力模式下,Claude会进行更深入的推理,回答质量更高,但token消耗也更大;低努力模式下,响应速度更快,token消耗更慢。Opus 4.8默认采用高努力设置,Anthropic认为这是质量与体验之间的均衡选择。对于特别复杂的任务或长时间运行的异步工作流,官方建议使用“额外”档位,在Claude Code中对应“xhigh”设置。为配合更高的token消耗,Anthropic也同步提高了Claude Code的速率限制。
API层面,Messages API现在允许在消息数组中直接插入系统条目。开发者可以在任务中途更新Claude的指令,比如调整权限、修改token预算或变更环境上下文,而无需中断已有的提示缓存。这对需要频繁调整配置的智能体运行场景更为友好。
安全方面,Anthropic称Opus 4.8参加了一次为期一周、专门针对提示注入攻击的实时漏洞赏金测试,这也是该公司首次进行此类测试。结果显示,Opus 4.8的鲁棒性介于Opus 4.7和Sonnet 4.6之间,领先于所有参与测试的可比前沿模型;在已部署防护措施后,浏览器使用场景下的攻击成功率接近于零。
02 快速模式砍价到1/3,动态工作流能调度数百个“分身”
除了模型本身的特性变化,Opus 4.8还带来了两项实用性更新。
首先是价格。Opus 4.8的标准定价与Opus 4.7保持一致,但快速模式迎来了大幅降价。在快速模式下,模型的生成速度大约是正常状态的2.5倍,现在每百万输入token收费10美元,输出收费50美元。相比之下,Opus 4.7的快速模式定价为输入30美元、输出150美元,相当于直接降至原来的三分之一。

在Claude Code中,用户直接输入/fast命令即可切换到这一模式。API则需要通过claude.com上的等待列表申请。
另一项重要功能是Claude Code中新增的“动态工作流”。设计思路是:当任务规模大到单个上下文窗口无法容纳时,Claude可以先行规划整体工作,然后并行启动数百个子智能体,每个子智能体处理部分任务,最后汇总验证所有结果,形成整合报告交给用户。该功能目前处于研究预览阶段,面向企业版、团队版和Max计划的用户开放。
Anthropic给出了应用实例:搭载Opus 4.8之后,Claude Code可以执行一次跨越数十万行代码的代码库级别迁移,整个过程从启动到合并,并以现有测试套件作为执行标准。对于维护大型项目的开发团队而言,这种能力意味着许多原本需要拆分成无数小步骤、耗费大量人工沟通的工作,现在可以交给模型一次性规划并执行完成。
Databricks在使用Opus 4.8后发现,Opus 4.8在其Genie数据智能体中处理深度多步骤问题时,消耗的token成本比Opus 4.7便宜了61%,这得益于模型在多模态处理上的效率提升,尤其是在处理PDF和图表文件时表现更佳。为法律工作构建AI助手的Harvey则表示,Opus 4.8在其法律智能体基准测试中创造了有记录以来的最高分,并且是第一个在全部通过标准上整体突破10%的模型。汤森路透旗下的CoCounsel Legal也反馈,新模型在一致性和推理质量上看到了有意义的改进。
03 一项关键测试,输给GPT-5.5
在各类标准测试中,Anthropic官方发布的对比表格显示,模型在多个维度上都超越了前代。

OSWorld-Verified测试中,Anthropic还特意调整了评估方式,使其更贴近现实世界的使用场景,Opus 4.7的得分也因此被更新为82.3%,而Opus 4.8在此基础上拿到了83.4%。
在横向对比上,Opus 4.8在至少12个基准测试中击败了GPT-5.5。但值得一提是,在Agentic Terminal Bench 2.1中,它依然输给了GPT-5.5——这个测试本质上衡量的是:一个AI Agent能否在真实终端环境中,像工程师一样完成端到端任务。自GPT-5.5发布以来,Claude面临的压力越来越明显。
04 重头戏又在后面,Mythos级别模型几周内到来?
在Opus 4.8的发布公告中,Anthropic花了相当篇幅预告下一步计划,这让整件事看起来更像是一个过渡性节点。
Anthropic表示,他们计划发布比Opus系列拥有更高智能的新型模型,这些模型基于Claude Mythos架构。目前已有包括苹果、谷歌、微软、亚马逊云科技在内的约50个合作伙伴,利用Mythos Preview在关键软件基础设施中发现了超过10000个高危或严重等级的漏洞。
之所以没有直接公开发布Mythos级别模型,核心原因在于安全。在这次Opus 4.8的发布中,Anthropic的口径出现明显松动,表示在开发更强的网络防护措施方面“正在取得快速进展,并预计在未来几周内将Mythos-class模型带给所有客户”。
彭博社在同一天的报道中也确认了这一时间表,并补充说Anthropic计划与美国及其盟国政府合作,将Project Glasswing扩展到更多合作伙伴。

同样在5月28日,Anthropic宣布完成650亿美元的H轮融资,投后估值达到9650亿美元。2026年2月完成G轮融资时,Anthropic的估值还是3800亿美元。

但话说回来,Mythos的发布信号就像狼来了的故事,市场信任度正在急剧下降。Opus 4.7的堪忧口碑,或许是仅隔41天就更新一个版本的最大压力。也许,Mythos还没来,Claude的地位已不如前。
Anthropic自己显然也担忧这一点。他们在公告中同时预告了两条路线的进展:短期内会推出价格更低、但保留Opus级别核心功能的模型;而Mythos仍需等待安全防护措施完全到位后才能大规模释放。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Anthropic发布Opus 4.8 关键性能仍不敌GPT-5.5要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点生成运动训练视频时,需在提示词开头声明总时长(2-8秒),用“→”串联不超过3个关键帧节点并写明部位与状态,运镜需绑定起始与终止构图,删除“专业感”等主观修饰词,改用具象角度或时间约束。
AI速递:Codex与LangGraph在真实业务中的实战手册 2026年5月28日,我们盘点几个极具代表性的AI Agent落地实例。这些案例的共同特征是:不再局限于“调个API聊聊天”的层面,而是深入客服、财税、运维等具体业务场景的工程化改造。它们展示的不是炫技的Demo,而是可以直接参考、甚至
AI商业化重心从服务消费者转向企业降本增效。C端付费转化率低,B端收入爆发式增长。企业基于ROI采购AI替代人力,数字劳动力正成为新生产要素,其市场价值远超互联网流量模式。
```html 想要在通义万象里生成那种泛黄、带有颗粒感、一看就充满年代感的老照片质感?关键在于提示词的组合策略与参数微调。下面直接分享实用技巧,教您如何将数字模型“调教”成一台1940年代的胶片相机。 通义万象对中文提示词其实相当敏感,但为了真正还原老照片的氛围,您需要把胶片的物理特性以及岁月留下
- 日榜
- 周榜
- 月榜
热点快看
