Claude Opus 4.7来了，公开模型里的SOTA，不过用起来GPT味好浓

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

Claude Opus 4.7来了，公开模型里的SOTA，不过用起来GPT味好浓

热心网友时间：2026-04-22

转载

Claude Opus 4.7突袭，核心升级四大方向

用Mythos向外界虚晃一枪后，Anthropic猝不及防把Claude Opus 4.7抬了上来。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

Claude Opus 4.7来了，公开模型里的SOTA，不过用起来GPT味好浓

消息一出，社区立刻沸腾了。不少开发者熬夜上手体验，反馈相当热烈。通览下来，这个被官方称为目前最强大的公开可用模型，在四个核心方向上都有突出表现，当然，也伴随着一些需要适应的新特性。

高级软件工程领域：值得托付

Opus 4.7最显著的进步，无疑体现在高级软件工程领域。直接看数据：

SWE-bench Verified测试达到78.2%；

SWE-bench Multimodal达到72.7%；

Terminal-Bench 2.0拿下68.8%；

Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍；

GitHub 93项任务编码基准也提升了13%。

Cursor的CEO Michael Truell给出了一个关键评价：

在CursorBench上，Opus 4.7从58%跃升到70%，这个跃升意义重大。

这种跃升并非空xue来风，它具体体现在三个关键特性上。

第一，严格遵循指令。 Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述，而是转向字面执行。这意味着，过去那种“如果可能的话，尝试优化这段代码”的提示词，模型可能会选择性忽略；而现在，直接说“优化这段代码”，它就一定会执行。这种变化要求用户重新调整提示词策略，软性修饰符如“if possible/ideally/try to”的权重变得更高，而硬性限制则需要更加明确。

第二，输出前自我验证。 模型会在报告结果前，自主设计方法来验证自己的输出，这就像一个资深工程师在提交代码前，总会自己先跑一遍测试。

第三，擅长复杂多文件变更、模糊调试、跨服务代码审查。 Notion的AI负责人Sarah Sachs分享的数据很有说服力：

面对复杂多步骤工作流，Opus 4.7比Opus 4.6提升14%，而且token消耗更少，工具错误只有三分之一。它是第一个通过我们隐性需求测试的模型。

视觉能力：分辨率×3，看见更多细节

在视觉能力方面，Opus 4.7的进步同样不容小觑。官方数据显示，其长边最大支持2576像素（约3.75百万像素），是Opus 4.6的3倍以上；XBOW视觉敏锐度达到 98.5%（Opus 4.6仅为54.5%）。

这种提升直接反映在落地场景上：模型现在能直接识别完整的Figma设计稿、包含灰色小字的1080p终端截图，并能精准解析复杂的技术架构图或财报图表。在计算机使用场景中，读取高密度UI元素也变得清晰准确，视觉处理能力近乎满分。

换句话说，化学结构解析、复杂技术图表识别、像素级精确的UI元素定位——这些过去需要专门模型才能完成的任务，现在一个Opus 4.7就能搞定。

指令遵循与推理：更可控，更可靠

指令遵循是本次升级的另一大亮点。模型不再试图过度猜测用户的“言外之意”，而是严格按照字面意思执行。 如果用户要求“不要用TypeScript”，模型就坚决不用；要求“输出JSON”，得到的输出就一定没有任何额外前缀。

这种变化对老用户来说可能需要一个适应期（旧的提示词容易产生意外结果，需要重新校准），但对于需要精确控制的生产场景而言，无疑是巨大的福音。

在推理方面，其在100万token长上下文场景中的表现尤为亮眼，BFS任务得分达到58.6%（Opus 4.6为41.2%），复杂任务中的逻辑连贯性有了显著提升。

Agent能力增强：为Agent而生的版本

如果说之前的Claude是为对话而生，那么Opus 4.7则是为Agent而生。这体现在几个方面。

首先，核心Agent能力有了全方位提升。 多家AI企业的实测数据可以佐证：Notion多步骤工作流成功率提升14%，工具调用错误率降至1/3；在Vending-Bench 2长期经营模拟中，最终余额达10937美元（Opus 4.6为8018美元），长周期决策更稳健；在Genspark场景下，抗死循环、一致性和错误恢复三大生产级特性全部拉满。同时，模型具备文件系统记忆能力，能跨会话可靠记住关键信息，新任务可减少高达40%的重复上下文输入。

Cognition的CEO Scott Wu的描述非常形象：

Opus 4.7在Devin中将长周期自主性提升到新水平。它能连贯工作数小时，突破难题而不是放弃，解锁了我们以前无法可靠运行的一类深度调查工作。

与此同时，Opus 4.7还为开发者提供了一套令人兴奋的Agent相关“四件套”：

第一， 新增xhigh推理等级，作为默认等级介于high与max之间，让开发者能在推理深度和响应延迟之间找到更精细的平衡点。

第二， 新增自适应思考模式，替代了固定的预算长思考，模型可自主决定思考深度，简单查询快速响应，复杂步骤则重点投入。

第三， 任务预算功能（公开beta），允许开发者引导token消耗，优化长任务的资源分配。

第四， Claude Code新增/ultrareview命令，可创建专属代码审查会话，标记细微错误与潜在的设计问题。

想做一个靠谱的模型：首发防护，记忆增强

Anthropic官方坦承，Opus 4.7的网络安全能力不如尚未公开发布的Mythos Preview。但这其实是刻意为之。

这种“自我设限”的背后，是Anthropic对AI安全一向的坚持。自2021年成立以来，这家公司花了四年时间精心打造自己的声誉，试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的形象。 在Mythos Preview引发业界对强大AI模型安全风险的热议之后，Opus 4.7被设计成了一道缓冲带。

具体来说，Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力，让模型在面对网络安全相关任务时，表现出更谨慎、更保守的行为模式。 与此同时，官方配套发布了能自动检测和阻止高风险网络安全请求的防护措施。

而对于确有合法网络安全需求的专业人士，Anthropic推出了Cyber Verification Program。安全专业人员如需将Opus 4.7用于漏洞研究、渗透测试、红队演练等合法目的，可以通过这一正式渠道申请。

另外，如果开发者计划从Opus 4.6迁移到4.7版本，有两个技术细节需要格外注意。

首先是tokenizer的更新。 Opus 4.7使用了新的分词器，虽然改善了文本处理效率，但相同输入可能映射到更多tokens，倍数大约在1.0到1.35倍之间。这意味着同样的提示词可能会消耗更多token，成本预算需要留出余量。

其次是在更高努力级别下会产生更多输出tokens。 Opus 4.7在high和xhigh级别下的思考深度明显增加，特别是在Agent场景的多轮对话后期。这种“多思考、更可靠”的行为模式提升了输出质量，但也意味着token消耗会随会话长度增长。