数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Claude Code删除80%提示词，Anthropic用Fable 5示范AI降本启幕

AI热点日报时间：2026-07-04

热点解读

Anthropic算力成本达薪资2 3倍，ClaudeCode以烧token营造高产体验，导致成本失控。大公司纷纷限制AI使用。Anthropic删掉了ClaudeCode80%的系统提示词以提升效率。Claude输出废话多，Caveman插件可减少65%输出token；OpenAI则通过压缩推理语言追求token效率。

一个行业正在发生一件很反直觉的事情。

先看一组数据：Anthropic 花在算力上的钱，已经到了薪资支出的 2.3 倍。什么概念？一个高级工程师的年度成本是 22.4 万美元，而他对应的算力开销大概是 51.5 万美元。算下来，人还没模型贵。

在这种账单面前，连 Claude 自己都开始琢磨怎么省 token 了。

Claude Code：烧 token 换“我很高产”的错觉

最近业界冒出一个新词：Token Apocalypse（Token 末日）。

从 token maxing 到 token apocalypse，背后是 AI 行业一个很大的范式转变。今年三四月份的时候，大家还在炫耀自己用了多少 token，甚至把它当成排行榜来刷。但现实很快打了脸——用 AI 不等于省钱。于是风向急转，大家开始把目光聚焦在单个 token 的成本上。

更微妙的是，大模型还在不断把一些本不需要 AI 介入的工作也拉进清单。PDF 不想自己读了，长文不想自己看了，所有东西都要 AI 来总结一下。或者把这些材料用 AI 转成幻灯片，再丢给别人，对方再用 AI 读这些幻灯片……AI 像在给一些本来就挺虚的工作强行注入一层价值，同时也悄悄地把账单推高了。

成本失控已经成了常态。亚马逊、Adobe、Atlassian、花旗集团这些大公司，都开始对 AI 使用下手了：

限制模型等级——一些公司的员工被禁止使用 Claude Opus 这类高端模型，只能降级到便宜版本；设定个人限额——Uber 给每位工程师每月设了 1500 美元的 token 上限；彻底停用权限——花旗银&行直接封了高级 AI 工具的访问，没达到使用目标的员工甚至会被注销企业账户。在此之前，Uber 的 CTO 也承认，公司几个月就用完了全年的 AI 预算。Walmart 最近也停掉了一些工具的使用。

大公司要么在四处找省钱的方法，要么直接给 token 浪费踩了脚急刹车。于是员工收到的是一个极其矛盾的信息：一边是“AI 能让你效率翻 100 倍，必须用”，一边是“别再把公司用破产了”。

这也是 AI 工具第一轮普及中最典型的问题：工具被推出来的时候，并没有足够的护栏来阻止公司在大语言模型上烧掉几百万美元，也没有机制能提醒团队 token 正在迅速烧光。不管是聊天机器人还是编码工具，很多产品先把“能用起来”摆在第一位，成本治理、使用配额、模型分级和上下文管理都被搁到了后面。

但 Claude Code 本质上不是效率工具，它是一个营销工具。

它的设计目标很明确：让你感觉自己在高产。Boris，Claude Code 的项目负责人，做这个产品时最初的思考是：“如果模型变得足够聪明，代码会变成什么样？我希望如何使用这些东西？”——出发点不是“如何帮开发者省 token”，而是“如何展示模型的聪明”。

Anthropic 愿意为这种“感觉”烧掉大量 token——不管是你的钱，还是它们自己的钱。五分钟烧掉 200 美元，对 Claude Code 来说不是事故，是设计。它的底层逻辑是：能多烧 token 解决的问题，绝不找更省 token 的办法。所有 sub-agent、所有花哨的 UI 动画、所有冗长的 reasoning trace，都不是为了效率，而是为了让你盯着屏幕时，觉得“这模型真聪明，真能干”。

这背后是一个精心设计的营销闭环：你烧掉大量 token，换来“高产”的感觉，于是觉得 Claude 好用，然后继续用它。Anthropic 甚至愿意自己承担大量 token 成本，来换取这种情绪上的认同。这也是为什么它们的桌面应用明显投入不足——Claude Code 的目标从来不是做一个好工具，而是成为 Anthropic 模型能力的“最佳展示窗口”。

而恰恰是这种“烧 token 换体验”的设计哲学，让 Claude 在 token 效率上被 OpenAI 甩开了。

OpenAI 一直在拼命压 token。从 reasoning trace 的压缩，到模型本身的效率优化，它们的哲学是：用更少的 token，干同样的活。Codex 5.5 就是最好的例子。

尽管像 Fable 5 这样的模型很智能，但与其他模型相比，它的效率不算高。Deep SWE 的这张图很能说明问题。把同批模型放在一起对比，差距就更明显：GPT-5.5 medium 只用了 2 万个 token，就拿到了惊人的分数；而 Opus 4.8 用了 5 万个 token，得分反而更低。

这就是两条路线最直接的写照：行业在恐慌，Claude 在烧，OpenAI 在省。接下来的问题就是——既然要降本，第一个该砍的是什么？答案是：那些堆了太久的提示词。

Claude Code 的 Prompt 债：堆得越多，欠得越多

在最新的演讲中，Anthropic 表示，他们已经删掉了 Claude Code 80% 的系统提示词。

Anthropic 技术团队成员 Tariq Shihipar 解释说，这反映出 AI 模型引导方式正在发生一次根本变化——过去，人们认为指令越多、例子越多，模型表现就越好；但现在，这个逻辑不再成立。新模型 Fable 5 比它们自己给的示例更有想象力，示例反而成了限制。

当然，这其中有营销成分，他吹嘘了一把 Fable 的能力：“示例反而容易限制模型，因为它实际上比我们给出的示例更有想象力”。但一个事实绕不过去：连 Anthropic 自己都开始对 system prompt 下刀了。

那么，为什么以前需要那么多 prompt？

过去一两年，AI Coding 圈形成了一套惯性思维：上下文越大越好，工具说明越多越好，system prompt 越完整越好。模型不知道项目怎么组织？写 Agents.md。模型不知道工具怎么用？写 tool descriptions。模型不够主动？写行为引导。模型不够稳定？继续往 system prompt 里加约束。

不可否认，system prompt 曾经是 AI Coding 工具的核心竞争力。对 LLM 的 prompt 做一些小调整，就可能带来显著的性能提升。如果同一个模型在 Codex、Cursor、OpenCode 和 Copilot 里的感觉不一样，那几乎肯定是因为 prompting 上存在细微差异。

这也是为什么 Cursor 曾花大量时间测试 system prompt，做 A/B testing，针对不同模型微调提示方式。与在 Claude Code 里使用 Opus 相比，Cursor 的 harness 能显著提升模型表现，一些 benchmark 测到的提升甚至高达 10% 到 30%。差别核心往往就是那几段 prompt。

但问题在于，只要 prompt 有用，团队就会不断往里加东西。某个模型喜欢乱用工具，就加一段规则；某个模型不够主动，就加一段鼓励；某个模型搜索太多，就补一段限制；某个模型不理解项目上下文，就再加一个 markdown 文件。每一次增加都有道理，但长期堆下来，system prompt 开始变成一个巨大的常驻上下文包袱。

问题在于：system prompt 不是免费的。它每次调用都要被读入、计费、占上下文。

Claude Code 把所有工具和功能内置进去之后，system prompt 一度膨胀到 65,000 个 token；即便关闭大部分功能，也还有 12,000 个 token。换句话说，模型还没开始写一行代码，就已经背上了一本说明书。作为对照，Pi 启动时上下文不到一千个 token。

更麻烦的是，prompt 债比代码债更隐蔽。

代码老了，通常会在改功能、跑测试、处理 bug 时暴露出来。Prompt 老了，却可能只是让模型悄悄变差。用户看到的是“Claude Code 最近好像不如以前聪明了”，或者“新模型没有宣传得那么强”，但真实原因可能是旧的 system prompt 没有跟上新模型。

当 prompt 从竞争力变成负担时，Anthropic 选择删掉 80%，这也进一步提升了 token 效率。

Claude 的“废话税”：多说一个字，多花一份钱

Claude Code 的废话实在太多了。

今年有一个叫 Ca veman 的插件迅速走红，专门解决这个问题。它的名字直译是“xue居人”，意思是像原始人一样说话——不讲礼貌，不加多余语法，不放填充词，只保留核心意思。

“Ca veman sa ve you token, sa ve you money. Star cost zero.”

乍一看，它听起来像个玩笑。但一旦理解，你会发现它解决的是 LLM 里一个非常真实的问题：废话太多、token 太多、成本也不必要地变高。

而它的起源，正是针对 Claude Code。

“我是在 4 月初做出 Ca veman 的，因为那段时间我重度使用 Claude Code，并且注意到我的很多 token 花费都浪费在了不必要的文字上：寒暄、模糊措辞、过渡语，以及那些在 agent loop 里其实并不重要的闲聊式表达。”Ca veman 的创建者 Julius Brussee 说。

Brussee 的评测显示，Ca veman 相比默认输出能减少 65% 到 75% 的输出 token，效果仍然超过普通的“请简洁”指令。它主要压缩的是周围的语言，不影响代码、命令、路径、URL、函数名这些需要精确性的部分。

据报道，OpenAI 的工程总监 Shayne Sweeney 也为该项目贡献了代码，以支持 Codex。

更有意思的是，OpenAI 早就把这种语言模式应用到了思考环节。

一些泄露出来的 reasoning trace（不是对外显示的 reasoning summary）让外界看到了端倪。内容不像普通英语，更像压缩过的工程速记：

“Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period.”

这些句子看起来很好笑，甚至有点乱，但它们的重点不在可读性，而在 token 效率。模型在内部推理时，不需要像对用户说话那样保持礼貌、完整和流畅。它只需要保留动作、对象、判断和下一步。换句话说，只要最终答案是正常的，模型内部完全可以用一种更短、更粗糙、更省 token 的语言完成思考，以疯狂追求 token 效率。

这甚至比在写 Prompt 环节更有用。压缩 reasoning token 的收益更大，因为 agent 是多步执行的，前一步的思考会变成后一步的输入。模型每少“想”一段，省下来的就不只是当下这几个 token，而是后面整条执行链上的重复开销。

这正是 OpenAI 和 Claude 路线上的一个明显差异。

Claude 一直更好聊，也更像一个用完整语言思考和表达的助手。只要看看它的 reasoning trace 长很多，就能猜到它可能是在用普通英语。它的输出和 reasoning 往往更长，所以更依赖大上下文窗口来容纳这些内容。

这也是为什么 Claude 默认使用 100 万 token 的上下文窗口。很多人以为这是因为它想装进更大的代码库，但原因其实更简单：Claude 生成的东西太长了，没有这么大的窗口装不下。它们甚至在 compaction 上也很差，当你恢复旧线程时，Claude 会建议你不要保留完整上下文，而是尝试 compact。因为它们不会保留 reasoning trace——事实上，它们会在 10 到 20 分钟后清掉这些东西，因为 reasoning token 效率太低，不值得一直保留，否则成本会荒谬到不可接受。

而 OpenAI 模型的 token 上下文窗口大概是 20 万或更少，但因为它们一开始就通过这种简短语言做到了压缩。

一个值得品味的细节：如果 Anthropic 修复了“废话太多”这个问题，它们的收入会明显下降。如果开发者可以用模型完成同样的工作，但生成的 token 更少，那就是它们赚不到的钱。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Claude Code删除80%提示词，Anthropic用Fable 5示范AI降本启幕要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://36kr.com/p/3879682654121990

Anthropic

上一篇：投资人深度反思具身智能投资底层逻辑

下一篇：对话智梦可创始人杜宇：AI实现睡眠主动干预不止监测

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。