Anthropic Opus 4.7版本为何引发争议与批评
今天看到Boris Cherny发了一篇关于如何用好新版Opus 4.7的长文,里面提了6个技巧,讲得挺有道理。但有意思的是,他完全没提这次升级背后那些会“打断腿”的破坏性变更——这些才是开发者真正头疼的地方。

3 个会打断你工作流的 Breaking Changes
Anthropic 刚发布了Opus 4.7,顺带也放出了一份迁移指南——不过说实话,大多数人估计不会仔细看。
眼下你最需要警惕的,是下面这三件事:
budget_tokens参数现在会直接返回 400 错误。- 新的 tokenizer 会让同一段文本多算大约 35% 的 token 数量。
- Thinking tokens 在默认情况下被隐藏了。
我们一条条拆开来看。
1. budget_tokens 坏了
如果你之前的代码里这么写:
thinking={"type": "enabled", "budget_tokens": 32000}
那么到了 Opus 4.7,这行代码会直接给你返回一个 400 错误。没有警告,没有过渡,直接失效。
这对于大规模使用 Opus 的场景来说是个大的麻烦。原本用来控制成本的 thinking budget 机制,就这么没了。
目前的替代方案是这样的:
thinking={"type": "adaptive"}
output_cnotallow={"effort": "xhigh"}
这里的 Effort 等级包括:low, medium, high, xhigh (新增), max。
需要特别注意:在 Opus 4.7 上,adaptive thinking 默认是关闭的。这意味着,如果你从 4.6 升级到 4.7,模型的默认表现会差很多,务必小心。
2. Tokenizer 现在会吃更多 Tokens
单价没变,上下文窗口也还是 100 万 token,没增加。
但坏消息是,新的 tokenizer 对同一段文本,会多算出大约 1.35 倍的 token 数量。
社区里还有很多反馈指出,新版本似乎更容易受到“上下文腐化”的影响。
这相当于变相涨价了,而且我们这边几乎没得到什么实质性的体验提升。所以,别轻信那些“信我兄弟”式的内部基准测试报告。


由此引发的连锁反应非常要命:
- 任何硬编码的上下文预算现在都不准确了。
- 任何客户端的 token 估算现在都失灵了。
- 同样的提示词,你的 API 账单会肉眼可见地变高。
3. Thinking Tokens 依然被隐藏
这个问题依然很糟糕,我之前专门写过相关的内容。
简单回顾一下:在 Opus 4.6 时代,thinking 内容默认会以“总结”形式显示。到了 Opus 4.7,现在默认变成了“省略”。响应里的 thinking 区块看起来是空的,但关键是你还得为它们全额付费。
“你仍会为完整的 thinking tokens 付费。Omitting 减少的是延迟,不是成本。”——这话是 Anthropic 自己说的。
没错,你的账单里包含了一部分你现在根本看不见的 token。
Long Context Retrieval 刚刚从悬崖上掉了下去
在 100 万 token 的 MRCR v2 基准测试上,结果有点惊人:
- Opus 4.6:78.3%
- Opus 4.7:32.2%

在 Anthropic 自己发布过的基准上,性能回退了足足 46 个百分点。

这是 Boris 对性能下降的回应,但坦白说,这个解释不太有说服力,甚至有点误导。


开发者实际上在报告什么
社区的总体反馈,可以说相当惨烈。
甚至 Opus 4.7 自己都在承认它会“瞎编”。

在真实使用中,还出现了以下几种“诡异”模式:
- 幻觉出同事和随机人物

- “今天就到这吧。”

- 已配置的偏好被忽略。

Anthropic 提高了 rate limits(据说)
在一片反对声中,Anthropic 宣布了“永久提高 rate limits”。

但我对此持保留态度。公告里既没有给出绝对数值,也没有百分比。
退一步讲,就算把速率限制提高 1.0 到 1.35 倍,那也刚好对上了新版本 thinking 用量的增长。所以这到底是“福利”,还是“找补”?大家心里自有判断。
Boris 说了什么(以及没说什么)
Boris 的帖子本身值得一读,他提到了几个使用技巧:
- Auto mode 适合更长的无人值守运行。
/fewer-permission-prompts技能可减少审批回路。- Recaps 功能便于回到长会话。
- Focus mode 可隐藏中间过程。
- Effort 需要调优(做编码时建议从
xhigh开始)。 - 给 Claude 一种自我校验的办法。
不过,千万别指望照搬他的工作流,升级后就能一切顺畅。背后的“坑”已经摆在那儿了。
先从这几步开始
如果你只有5分钟:立刻在代码库里全局搜索 budget_tokens 这个关键词。在做编码相关工作时,记得把 effort 设为 xhigh(在 Claude Code 里也调到最高档)。
如果你有15分钟:务必通读一遍 Anthropic 的发布说明和迁移指南,了解所有变更细节。
注意
必须承认,Claude Code 和 Claude 本身都是很棒的工具,我平时也经常用。但最近的这些动作,确实让包括我在内的很多开发者感到不安。最近聊到的每个人,几乎都注意到了性能上的明显下滑。然而,我们似乎又被推上了那辆“炒作列车”。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
腾势D9全新上市 硬核科技重塑豪华MPV驾乘体验
第二代腾势D9的正式上市,为高端MPV市场注入了全新的科技内涵。新车共提供6款配置,涵盖插电式混合动力与纯电动两种动力形式,官方指导价区间为35 98万元至46 98万元。作为一款科技旗舰MPV,它并非简单的配置叠加,而是通过底层技术架构与前沿智能科技的深度融合,重新定义了豪华出行体验,也为中国品牌
谷歌翻译20周年庆生:四代AI革新带来首次呼吸感体验
4月28日,谷歌翻译迎来了自己的二十岁生日。谷歌CEO桑达尔·皮查伊在社交平台X上亲自发文纪念,他回顾道,这个二十年前的小型实验,如今已成为每月服务超10亿用户的全球工具,超过三分之一的实时翻译会话持续超过5分钟。 这个数字意味着什么?它意味着两个语言不通的人,已经可以借助AI完成一场“自然对话”。
Claude API 压力测试脚本自动化生成指南
面对图像生成类API的高并发压力测试需求,手动编写脚本不仅耗时费力,还容易引入人为错误。如今,借助Claude等AI助手强大的自然语言理解与代码生成能力,我们可以快速构建出精准、可执行的性能测试方案。以下五种自动化实现路径各具特色,能够帮助测试工程师和开发者灵活应对不同技术场景与安全要求。 一、使用
Excel表格转动态图表教程:用Canva轻松实现数据可视化
在Canva可画中导入Excel表格制作图表,却发现图表无法自动更新数据?这通常不是平台功能限制,而是数据格式、导入方式或动态设置环节存在一些常见问题。别担心,按照以下步骤逐一排查,就能轻松解决图表不更新的问题,让你的数据可视化图表真正“动”起来。 一、确认Excel文件格式与内容规范 要让Canv
HermesAgent数据异常检测实战:K均值聚类算法详解
在时序数据异常检测任务中,直接应用经典K均值算法常面临诸多挑战:原始信号噪声干扰、聚类边界模糊,导致算法难以稳定识别真实离群模式。这些问题往往源于特征空间适配性、初始质心敏感性及距离度量方式等核心环节。 若您正面临类似困境,无需担忧。一套经过实践验证的优化方案,可系统性提升K均值在复杂时序场景下的鲁
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

