当前位置: 首页
AI资讯
Claude关键bug剖析:性能下降原因与修复方案详述

Claude关键bug剖析:性能下降原因与修复方案详述

热心网友 时间:2026-05-20
转载

在GPT-5.5发布的关键节点,Claude官方终于正式回应:模型性能下降情况属实,并已为所有用户重置使用额度。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

经过一个多月的用户反馈与质疑,Anthropic官方最终确认了导致Claude体验下滑的“降智”问题。根据官方分析,问题根源可归结为三个独立的技术故障:

  • 模型推理等级被默认从「高」调整为「中」
  • 缓存机制存在缺陷,导致每轮对话都清空思考记录
  • 一条25词限制的提示词意外降低了模型输出质量

这三个技术问题的叠加效应,严重影响了Claude的整体使用体验。有业界评论指出,竞争对手GPT-5.5的发布无疑带来了压力,单纯依靠“教育用户”显然不是维持市场地位的可持续策略。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

尽管官方修复问题是积极举措,但时间点上的巧合引发了广泛讨论——GPT-5.5刚刚亮相,Claude就迅速发布问题报告。这不禁让外界猜测,Anthropic联合创始人Dario Amodei是否在策略上有所安排,甚至有意制造技术话题来应对市场竞争。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

三大技术漏洞被确认

需要指出的是,Claude并非首次遭遇类似的技术挑战。早在去年8月,Anthropic就曾发布过关于Opus 4.0和4.1版本模型质量下滑的分析报告,当时官方同样坚称“从未有意降低模型性能”。

本次发布的报告标题为“对近期三个问题的分析”,其中“近期”一词颇具深意——这些问题并非突发,而是已持续影响用户体验相当一段时间。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

社区关于Claude“变笨”的讨论早已甚嚣尘上。十多天前,AMD AI组高级总监Stella Laurenzo在GitHub上发布了一份详细的审计报告,该报告分析了超过6800份会话文件、近1.8万个思考模块和23万次工具调用记录。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

分析数据清晰地显示,从今年2月开始,模型的推理深度出现了显著下滑。更细致的观察发现,Claude开始陷入“推理循环”的困境,并且在解决问题时倾向于选择“最简单的方案”而非最优解。

同一时期,BridgeMind的BridgeBench基准测试也报告了异常结果:Opus 4.6的准确率从83.3%大幅下降至68.3%,其排名也从第2位跌落至第10位。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

尽管后续有研究者指出该测试方法可能存在变量不一致的问题,但“Claude性能下降”的认知已在用户心中扎根。网友们甚至创造了“AI缩水通胀”这一新词,形象地描述了用户支付相同费用却获得稀释后服务体验的现象。换言之,用户可能购买到了性能打折的“降级版”AI服务。

然而在问题爆发初期,Claude在代码生成等专业领域仍具优势,许多开发者不得不继续使用。直到GPT-5.5正式发布,Anthropic才在官方博客上发布详细的事故分析报告,将过去两个月的性能问题分解为三个具体技术原因:

1. 推理等级被暗中降低
3月4日,Claude Code的默认推理等级从“高”被调整为“中”,官方解释是“高”模式下的响应延迟过高。但用户界面仍错误显示为“高”等级。这意味着用户以为自己在使用全性能模型,实际获得的却是降级版本。这个问题在一个多月后才得以修复。

2. 缓存Bug导致上下文丢失
3月26日上线的缓存优化本意良好:当会话空闲超过一小时后,自动清理旧的思考记录以提升效率。但代码缺陷导致清理操作变成了每一轮对话都执行。其直接后果是,Claude在连续对话中逐渐丢失之前的思考上下文,表现为健忘、重复回答和工具调用混乱。更严重的是,由于思考记录被反复清空,每次请求都无法有效利用缓存,反而导致Token消耗量激增。这个bug历时15天才被修复。

3. 提示词限制意外影响质量
4月16日,系统提示词中增加了一条新规则:“工具调用之间的文字不超过25个词,最终回复不超过100个词”。这条旨在规范输出的指令,意外导致Opus 4.6和4.7模型的整体性能下降了约3%。该限制在四天后被撤回。

这三个问题影响了不同的用户群体,并在不同时间段相继生效。它们的叠加效应导致整个Claude Code体验在持续且不均衡地恶化,而用户很难精准定位问题的具体来源。

在官方推特上,ClaudeDevs账号发布了问题总结,Claude联合创始人Boris Cherny也亲自参与讨论,并透露Opus 4.7的相关修复工作正在进行中。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

技术漏洞之外的成本压力

然而,仅用技术bug来解释过去两个月发生的一切,似乎并不完全令人信服。如果将时间线延长观察,整个四月份,Anthropic的一系列操作堪称“连环失误”。

4月4日,Anthropic封禁了OpenClaw等第三方智能体工具通过Pro/Max订阅运行。用户若想继续使用这些功能,必须转向API并按Token付费。

4月21日,官方定价页面悄然移除了Pro套餐中的Claude Code服务,支持文档也从“Pro或Max套餐”改为“仅限Max套餐”。在被用户发现并质疑后,Anthropic增长负责人Amol A vasare出面解释称这只是针对2%新用户的A/B测试。但矛盾之处在于,公开页面是全站统一更新的,这与“仅限部分用户”的说法明显不符。几小时后,这一改动被尴尬地撤回。

我们来计算一下成本变化:Pro用户每月支付20美元,年费240美元。如果想继续使用Claude Code,就必须升级到Max 5x套餐,每月100美元起步,年费高达1200美元——价格是原来的五倍。如果选择Max 20x套餐,年费则达到2400美元,是原来的十倍。而且,中间没有任何过渡性套餐可供选择。

4月23日,也就是发布事故分析报告的当天,Anthropic宣布的补偿措施是“重置所有用户的使用额度”。但有敏锐的用户指出,上周发布Opus 4.7时已经重置过一次额度,因此这次的“补偿”很可能只是一次常规的周期重置。

将这三起事件联系起来分析,问题的性质似乎发生了变化。这不再仅仅是技术层面的bug,而更像是公司在成本压力下的全面策略调整。

用户信任度面临严峻挑战

面对这一系列事件,用户群体的反应出现了明显分化。

部分用户认为,大型复杂系统出现技术问题在所难免,而Anthropic的事后分析报告相对透明,Boris在Hacker News上逐一回复用户质疑的态度,也比大多数科技公司做得更为到位。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

但更多的用户在进行另一种计算:在过去两个月的问题高发期,所有官方渠道始终保持沉默。只有少数员工在社交媒体X上零散地回复用户,这种沟通方式被批评为“随机时间、随机回复”,完全不成体系,无法建立有效的用户沟通机制。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

更深层次的质疑指向了“缓存优化”的真实动机。清除思考记录的触发时间点恰好与缓存过期节点重合,这让人怀疑其初衷并非为了降低延迟,而是为了控制运营成本。同期,Anthropic还对一小部分Pro用户进行了A/B测试,悄无声息地提供了不同的产品配置,这无疑在用户本已动摇的信任基础上又增添了一道裂痕。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

正如一位网友的评论一针见血:不应将所有希望寄托在单一AI模型供应商身上。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

AI市场格局正在重新洗牌

Hacker News的评论区出现了一个值得关注的现象:许多用户开始分享自己的“迁移经验”。有人表示早在二月份就“下意识地”转向了Codex,直到现在才意识到,很可能就是被Claude体验下降所驱动的选择。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

也有用户指出,GPT-5.4在特定任务上的表现已经超越了Opus 4.6。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

还有开发者提到,他们开始使用MiniMax等替代产品作为补充,花费40美元就能在一个周期内获得4500条消息,并且能够查看完整的模型思考过程。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

半年前,“写代码就用Claude”几乎是开发者社区的共识。如今,市场格局已发生深刻变化:Codex据称拥有400万活跃用户;新发布的GPT-5.5主打编码和计算机操作能力,连OpenAI内部人员都直接表示该模型能担任“技术参谋长”的角色;DeepSeek V4也已蓄势待发。

Claude面临的问题,或许不仅仅是自身性能的相对下降,更关键的是,竞争对手们正在快速进步。而在竞争最激烈、用户最敏感的时期,它却在最不该出现问题的地方出现了问题。

留给Anthropic修复技术漏洞、重建用户信任的时间窗口,比两个月前要紧迫得多。GPT-5.5已经发布,DeepSeek V4即将登场。现在,整个行业的目光或许都在关注:Gemini,你是否已经做好了应战准备?

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

参考信息来源
[1]https://www.anthropic.com/engineering/april-23-postmortem
[2]https://news.ycombinator.com/item?id=47878905

来源:https://www.qbitai.com/2026/04/407502.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

就在人们还在为ChatGPT Images 2 0的惊艳表现而惊叹时,谷歌DeepMind的一篇重磅论文,为AI视觉领域投下了一枚“深水冲击波”。这篇题为《Image Generators are Generalist Vision Learners》的研究,系统性地证实了一个许多研究者心中早有预感

时间:2026-05-20 15:50
PPIO全面支持DeepSeek-V4预览版 1M上下文即刻体验

PPIO全面支持DeepSeek-V4预览版 1M上下文即刻体验

今天,AI开源领域迎来重磅进展:备受瞩目的DeepSeek-V4预览版正式发布并全面开源。本次发布同步推出两个版本——追求顶级性能的DeepSeek-V4-Pro与侧重效率性价比的DeepSeek-V4-Flash,为不同应用场景的开发者提供了清晰选择。值得注意的是,中国全栈式AI云服务商PPIO已

时间:2026-05-20 15:50
Claude强制实名认证引争议 验证是否为了更精准封号

Claude强制实名认证引争议 验证是否为了更精准封号

梦晨 发自 凹非寺量子位 | 公众号 QbitAI 正用AI惬意地处理工作,突然屏幕上弹出一条提示:请完成实名认证。 Claude的新规一上线,用户社区立刻炸开了锅。 这可不是办理银&行业务,也不是过海关安检。一个日常对话的AI工具,竟然要查验你的身份证了。 要求还格外严格:必须手持身份证原件,对着

时间:2026-05-20 15:49
京东发布行业首个具身智能数据平台 构建超级供应链基础设施

京东发布行业首个具身智能数据平台 构建超级供应链基础设施

继一个月前宣布将建成全球最大具身数据采集中心、助力万亿机器人产业生态后,京东在具身智能领域再有重磅进展。4月16日,在京东具身智能生态发布会上,京东全球首次推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施体系,自研的超高清采集终端JoyEgoCam、具身大模型JoyAI-RA以及具

时间:2026-05-20 15:49
国产多模态医疗AI实现顶尖医学图像分割性能无需调整模型架构

国产多模态医疗AI实现顶尖医学图像分割性能无需调整模型架构

这项名为IBISAgent的突破性生物医学视觉推理框架,成功入选CVPR 2026!它重新定义了医学图像分割的范式。 人类专家在标注医学图像时,从未采用过“一次看诊、一键生成”的简单方式。 他们的工作流程是先全局观察、初步定位可疑区域,随后利用分割工具反复进行正向与负向点击,并根据每一步生成的掩膜形

时间:2026-05-20 15:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程