Claude Opus 4.7来了,公开模型里的SOTA,不过用起来GPT味好浓
Claude Opus 4.7突袭,核心升级四大方向
用Mythos向外界虚晃一枪后,Anthropic猝不及防把Claude Opus 4.7抬了上来。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

消息一出,社区立刻沸腾了。不少开发者熬夜上手体验,反馈相当热烈。通览下来,这个被官方称为目前最强大的公开可用模型,在四个核心方向上都有突出表现,当然,也伴随着一些需要适应的新特性。
高级软件工程领域:值得托付
Opus 4.7最显著的进步,无疑体现在高级软件工程领域。直接看数据:
SWE-bench Verified测试达到78.2%;
SWE-bench Multimodal达到72.7%;
Terminal-Bench 2.0拿下68.8%;
Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍;
GitHub 93项任务编码基准也提升了13%。
Cursor的CEO Michael Truell给出了一个关键评价:
在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。
这种跃升并非空xue来风,它具体体现在三个关键特性上。
第一,严格遵循指令。 Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是转向字面执行。这意味着,过去那种“如果可能的话,尝试优化这段代码”的提示词,模型可能会选择性忽略;而现在,直接说“优化这段代码”,它就一定会执行。这种变化要求用户重新调整提示词策略,软性修饰符如“if possible/ideally/try to”的权重变得更高,而硬性限制则需要更加明确。
第二,输出前自我验证。 模型会在报告结果前,自主设计方法来验证自己的输出,这就像一个资深工程师在提交代码前,总会自己先跑一遍测试。
第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。 Notion的AI负责人Sarah Sachs分享的数据很有说服力:
面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。它是第一个通过我们隐性需求测试的模型。
视觉能力:分辨率×3,看见更多细节
在视觉能力方面,Opus 4.7的进步同样不容小觑。官方数据显示,其长边最大支持2576像素(约3.75百万像素),是Opus 4.6的3倍以上;XBOW视觉敏锐度达到 98.5%(Opus 4.6仅为54.5%)。
这种提升直接反映在落地场景上:模型现在能直接识别完整的Figma设计稿、包含灰色小字的1080p终端截图,并能精准解析复杂的技术架构图或财报图表。在计算机使用场景中,读取高密度UI元素也变得清晰准确,视觉处理能力近乎满分。
换句话说,化学结构解析、复杂技术图表识别、像素级精确的UI元素定位——这些过去需要专门模型才能完成的任务,现在一个Opus 4.7就能搞定。
指令遵循与推理:更可控,更可靠
指令遵循是本次升级的另一大亮点。模型不再试图过度猜测用户的“言外之意”,而是严格按照字面意思执行。 如果用户要求“不要用TypeScript”,模型就坚决不用;要求“输出JSON”,得到的输出就一定没有任何额外前缀。
这种变化对老用户来说可能需要一个适应期(旧的提示词容易产生意外结果,需要重新校准),但对于需要精确控制的生产场景而言,无疑是巨大的福音。
在推理方面,其在100万token长上下文场景中的表现尤为亮眼,BFS任务得分达到58.6%(Opus 4.6为41.2%),复杂任务中的逻辑连贯性有了显著提升。
Agent能力增强:为Agent而生的版本
如果说之前的Claude是为对话而生,那么Opus 4.7则是为Agent而生。这体现在几个方面。
首先,核心Agent能力有了全方位提升。 多家AI企业的实测数据可以佐证:Notion多步骤工作流成功率提升14%,工具调用错误率降至1/3;在Vending-Bench 2长期经营模拟中,最终余额达10937美元(Opus 4.6为8018美元),长周期决策更稳健;在Genspark场景下,抗死循环、一致性和错误恢复三大生产级特性全部拉满。同时,模型具备文件系统记忆能力,能跨会话可靠记住关键信息,新任务可减少高达40%的重复上下文输入。
Cognition的CEO Scott Wu的描述非常形象:
Opus 4.7在Devin中将长周期自主性提升到新水平。它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。
与此同时,Opus 4.7还为开发者提供了一套令人兴奋的Agent相关“四件套”:
第一, 新增xhigh推理等级,作为默认等级介于high与max之间,让开发者能在推理深度和响应延迟之间找到更精细的平衡点。
第二, 新增自适应思考模式,替代了固定的预算长思考,模型可自主决定思考深度,简单查询快速响应,复杂步骤则重点投入。
第三, 任务预算功能(公开beta),允许开发者引导token消耗,优化长任务的资源分配。
第四, Claude Code新增/ultrareview命令,可创建专属代码审查会话,标记细微错误与潜在的设计问题。
想做一个靠谱的模型:首发防护,记忆增强
Anthropic官方坦承,Opus 4.7的网络安全能力不如尚未公开发布的Mythos Preview。但这其实是刻意为之。
这种“自我设限”的背后,是Anthropic对AI安全一向的坚持。自2021年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的形象。 在Mythos Preview引发业界对强大AI模型安全风险的热议之后,Opus 4.7被设计成了一道缓冲带。
具体来说,Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力,让模型在面对网络安全相关任务时,表现出更谨慎、更保守的行为模式。 与此同时,官方配套发布了能自动检测和阻止高风险网络安全请求的防护措施。
而对于确有合法网络安全需求的专业人士,Anthropic推出了Cyber Verification Program。安全专业人员如需将Opus 4.7用于漏洞研究、渗透测试、红队演练等合法目的,可以通过这一正式渠道申请。
另外,如果开发者计划从Opus 4.6迁移到4.7版本,有两个技术细节需要格外注意。
首先是tokenizer的更新。 Opus 4.7使用了新的分词器,虽然改善了文本处理效率,但相同输入可能映射到更多tokens,倍数大约在1.0到1.35倍之间。这意味着同样的提示词可能会消耗更多token,成本预算需要留出余量。
其次是在更高努力级别下会产生更多输出tokens。 Opus 4.7在high和xhigh级别下的思考深度明显增加,特别是在Agent场景的多轮对话后期。这种“多思考、更可靠”的行为模式提升了输出质量,但也意味着token消耗会随会话长度增长。
与Opus 4.6同价,有这些注意事项你需要知道
目前,Opus 4.7已实现全平台开放。除Claude官方途径外,新模型不仅登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方API,还同步上线微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台。
其定价与Opus 4.6保持一致:输入5美元每百万tokens,输出25美元每百万tokens。
虽然如前所述,Opus 4.7涉及提示词的重构需求和token使用策略的调整,但Anthropic在自己的内部测试中给出了积极信号:在一个内部Agent编码评估中,所有努力级别下的token使用效率相比Opus 4.6都有改善。
换句话说,虽然单次调用的token数可能增加,但完成任务所需的总token往往更少,因为模型犯错的次数减少了。 这大概就像雇了一位时薪更高的资深工程师,但他完成任务的速度更快、返工更少,最终的总成本可能反而更低。
开发者可以通过调整effort参数、设置任务预算或优化提示词来平衡性能与成本。Anthropic建议,在测试Opus 4.7的编码和Agent用例时,从high或xhigh努力级别开始,再根据实际需求逐步调整。
总的来说,实际使用成本会因使用方式的不同而变化,但大多数情况下,能力提升带来的效率增益会抵消token消耗的增加。对于依赖Claude进行复杂开发工作的团队来说,这很可能是一笔划算的交易。
参考链接:
[1]https://www.anthropic.com/news/claude-opus-4-7
[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3]https://x.com/i/trending/2044560325509316766
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
梅雨季衣物护理攻略:潮湿地区必备防霉神器
引言:南方潮湿夏季的衣物护理痛点 南方的梅雨季节,那种无处可逃的黏腻感,想必很多人都深有体会:衣服晾了好几天,摸上去还是潮乎乎的;打开衣柜,心爱的真丝衬衫不知何时已悄悄点缀上了霉斑;价格不菲的羊毛大衣,也总带着一股挥之不去的陈腐气味。这还只是表面问题,高温高湿的环境,更是让衣物成了细菌和螨虫滋生的绝
欧睿国际:美的位列 2025 年全球智能家电销量第一
全球智能家居格局生变:美的问鼎销量榜首背后的硬核实力 三月初,一则消息在行业内外激起不小的波澜。在美的举办的一场战略发布会上,权威市场监测机构欧睿国际现场颁发了一张含金量十足的认证:美的荣获“2025年全球智能家电销量第一”。这远不止是一张证书,它更像一份提前到来的成绩单,清晰勾勒出智能家居赛道新的
解码 AI 领军者创新逻辑 北纬诺贝前瞻共探 AGI 未来图景
2026年3月10日:一场关于AGI未来的思想碰撞在北京启幕 就在前几天,3月10日,北京上演了一场颇具分量的思想前瞻。由北京中关村学院、中关村人工智能研究院携手北纬港湾、湛庐文化共同发起的“北纬诺贝巅峰对话”首场活动,顺利落地。这场活动的议题直指核心——“从DeepMind到通用人工智能:AI时代
2026 公认最好的折叠屏手机是谁 旗舰机型全面解析
随着折叠屏手机进入成熟发展阶段,很多用户在选择产品时都会关注一个问题,那就是公认最好的折叠屏手机到底是哪一款。从实际使用体验来看,一款优秀的折叠屏手机不仅需要拥有出色的屏幕与性能,更要具备稳定持久的续航能力。在当前主流折叠屏旗舰中,荣耀 Magic V6 凭借领先的电池技术和整体性能表现,成为不少用
解构新石器即时配送:如何用“服务”撬动万亿城配市场
在城市物流的“最后一公里”,一场由无人驾驶驱动的变革正在发生 说起城市配送,大家可能立刻想到穿梭的电瓶车和厢式货车。但近两年,这个领域的故事开始有了新主角。新石器无人车(Neolix)首创的 RaaS(RoboVan-as-a-Service)即时配送模式,已经在青岛建成了全球最大的单城市无人车队。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

