Claude代码输出token减少75%的优化原因解析
Claude的回复里,那些看似礼貌的“当然,我很乐意帮你处理这个问题”、“你现在遇到的问题,大概率是由……”之类的开场白,其实都在悄悄消耗你的token预算。
我们实际上是在为这些“客气话”付费。
这让我想起艾伦·艾弗森那段著名的采访,被全网反复调侃。重点不是比赛,也不是胜负,而是他一直在重复一个词——训练。
而现在,我们花钱购买的,某种程度上就是另一种“训练词汇”。
一个简单的测试
我用同一个Unity UI元素的bug,让Claude Code连续解释了两次。
默认状态下的Claude Code,用了1252个token。而开启一个特定方法后,只用了410个token。
修复的是同一个bug,给出的解决方向也完全相同。
差别不在于能力,而在于其中一个版本额外花了800多个token,用于铺垫、寒暄、解释语气,以及那些不影响最终结果的“人性化包装”。
说白了,答案没变,变的只是废话变少了。

方法简单得离谱
GitHub上有一个免费的插件,已经获得了超过1.3万颗星。它做的事情听起来像个玩笑,但效果却非常实在:让Claude的说话方式变得像“xue居人”一样简洁。
安装之后,它会立刻将Claude的输出风格压缩到极简模式:减少寒暄,省略铺垫,砍掉不必要的完整句子,直接切入核心结果。
安装方式也异常简单:
claude plugin marketplace add JuliusBrussee/ca veman
claude plugin install ca veman
安装完成后,只需执行:
/ca veman
即可开启。没有复杂的配置,也没有额外的折腾步骤。

开启后的效果对比
在未开启“xue居人”模式时,Claude通常会这样回答:
“Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix.”
很礼貌,很完整,但也很“昂贵”。
而开启ca veman模式之后,它的回答会更像这样:
“Bug in auth middleware. Token expiry check use < not <=. Fix:”
瞬间变得干净利落。没有“我很乐意帮你”,没有“让我来看看”,也没有“你遇到的问题很可能是”。直接指出问题所在、错误原因以及修改方法。
关键在于,这不仅仅是为了省钱。通常,这样的回答也更好阅读。因为很多时候,用户需要的并非陪伴式对话,而是可执行的高密度信息。当目的是修复bug、修改代码或推进任务时,越快触及核心内容,体验往往就越好。
最令人意外的并非省钱
起初,我以为这种压缩必然伴随着代价。直觉上会认为:输出更短,token更少,那么质量是否也会随之下降?
听起来很合理,但结果却不一定如此。也就是说,冗长并不一定代表更聪明。很多时候,它只是更昂贵而已。

因为我们过去太容易默认一个观念:“说得越多,说明理解越深。”但对于模型输出来说,许多额外的长度并非洞察,而只是冗余的包装。
可自定义的“xue居人”程度
这个插件并非只有一种压缩模式,它提供了三个层级,允许用户自行决定希望Claude简洁到什么程度。
1. Lite 模式
/ca veman lite
此模式会进行适度精简,保留基本语法结构,整体输出仍保持专业、正常且可读。如果你不喜欢过于生硬的风格,但又想削减不必要的前置话术,这个模式会是一个平衡的选择。
2. Full 模式
/ca veman full
这是默认模式。它会进一步压缩冠词和一些连接性内容,输出更接近短句或碎片化信息,读起来更利落,也更像“直接把结果扔给你”。
3. Ultra 模式
/ca veman ultra
这个模式非常极端。能压缩就压缩,能省略就省略,力求用一个词说完就绝不用两个。风格近乎于:“一词。足矣。”如果你本身就不在意语言的完整性,只追求token效率和信息密度,那么这个模式会让你感到非常痛快。
甚至还有一种更极致的模式:文言文压缩。看到这里,我几乎要后悔学生时代没有认真学好古文了。
一些值得关注的数据
根据插件作者Julius Brussee提供的基准测试,这种节省主要发生在Claude进行“解释说明”的阶段。也就是说,越是需要输出分析、推理过程或建议文本的场景,压缩带来的收益就越明显。真正消耗大量token的大头,往往不是“代码块”本身,而是环绕在代码周围的那些自然语言解释部分。

仔细想想,这很合理。代码本身通常已经比较紧凑。真正容易膨胀的,恰恰是解释代码的那些句子。而Claude最爱“注水”的,也正是这一部分。
另一个配套的实用工具
除了ca veman,还有一个兄弟工具值得一试:ca veman-compress。这个工具的主要作用不是压缩Claude的回答,而是压缩你的CLAUDE.md文件。
很多人会忽略这一点:CLAUDE.md的token消耗是非常可观的。因为它几乎在每个会话中都会被加载一次。这意味着,这个文件里每多一个token,你在后续的每次会话中都可能为此反复付费。这不是一次性成本,而是一种持续的“消耗税”。
ca veman-compress的作用,就是将这类说明文件改写成更紧凑、但仍保持可读的格式。同时,它还会保留一份对人类友好的备份,避免压缩后连自己都看不懂。根据一些用户的反馈,使用后大约能节省45%左右的token。
这一点其实非常关键。因为很多人只盯着输出token,却忘了输入token同样昂贵,而且往往更稳定、更持续。输出token是当次会话的消耗,而输入token则是你每轮对话都在支付的“基础租金”。
我个人的使用习惯
现在,我基本上每次开启新的会话时,都会先输入/ca veman。这已经成了一个习惯。而且我越来越喜欢这种简短、直接、不拖泥带水的输出风格。
以前,我也会尝试让Claude自己来压缩我的CLAUDE.md,但现在我改用专门的插件来处理。一个明显的体感变化是:我遇到使用限额(limit)的频率下降了不少。
说实话,我甚至觉得这种简洁模式应该默认开启。但问题也很现实:输出越长,使用量越高;使用量越高,平台的收入可能就越多。所以,这种“替用户省钱”的行为,不一定天然符合服务提供商的商业激励。这也正是为什么,许多真正实用的小工具,最终往往是由社区率先开发出来的。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
国内最大纯电SUV车型正式上市
昨晚,杭州的夜空因一场备受瞩目的发布会而璀璨夺目。蔚来汽车正式揭晓了旗下全新旗舰大型SUV——蔚来ES9的详细技术信息。这款被定位为“科技行政旗舰”的豪华SUV,堪称蔚来品牌十一年技术积淀与体系创新的巅峰之作。它不仅是中国市场当前尺寸最大的纯电SUV,其全面而强大的产品力,甚至可能让消费者在选购大型
阿里千问AI眼镜S1发布 双目显示热插拔换电 补贴价3499元
4月10日,阿里千问正式宣布,其新款AI智能眼镜S1已全面开启线上线下的预约通道,并将于4月15日正式现货发售。在叠加官方限时优惠与国家相关补贴政策后,最终到手价仅为3499元,性价比优势显著。 作为阿里千问AI眼镜产品线中的旗舰新品,S1相比前代G1在交互体验、显示效果、续航方案以及核心硬件配置上
LangChain与Harness之争:为何51万行代码难被AI模型替代
最近AI工程圈有个话题热度不低。LangChain的联合创始人兼CEO Harrison Chase在X上发了一篇长文,核心观点直指Agent(智能体)发展的一个关键矛盾:记忆(Memory)与承载它的“马具”(Harness)深度捆绑。他直言,想要获得真正自主、个性化的智能体验,开放且与模型提供商
WorkBuddy能否完全替代人类工作岗位
WorkBuddy:是超级助理,而非人类替代者 WorkBuddy 不能彻底代替人类,而且短期内完全不可能 关于AI智能体能否取代人类工作的讨论持续升温,尤其像WorkBuddy这类执行型AI工具的问世,引发了广泛关注。人们既期待其带来的效率革命,也担忧自身职业前景。那么,AI工具究竟会替代人类吗?
Anthropic智能体开发提速 从数月缩短至几天
对于许多企业而言,将AI智能体从概念变为稳定可靠的生产力工具,一直是个耗时耗力的“大工程”。光是构建沙箱环境、配置权限凭证、搭建监控链路这些基础设施,就足以让一个工程团队忙上数月。然而,就在最近,这个漫长的过程被大幅缩短了。 4月9日,Anthropic正式发布了面向企业的智能体托管平台Claude
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

