企业AI算账时代 Token预算战争已进入白热化阶段
企业AI已经从“是否采用”走向“如何分配”
在公司高层,新的“通货”是你量化AI投资回报率的能力。每个职能部门都被问到同一个问题:你产出了什么?成本是多少?过去两年,CEO们一边早上醒来看CNBC上的Jim Cramer,一边看着竞争对手宣布生产力提升,然后要求全公司用AI。现在真正带来压力的,是后续那个问题:把价值证明给我看。 Claude在2025年11月发布,而那时大多数企业的2026年年度预算已经锁定。到了第一季度,实际使用量远超原计划。推理成本不再只是试验预算项目,而变成了持续发生的运营成本。随之而来的问题是:AI到底在哪里真正创造了价值? 这个问题很难回答,因为token的效用没有被量化。账单无法告诉你,这笔支出究竟是替代了人工、创造了收入、降低了风险、加速了流程,还是只是一群工程师为了排行榜疯狂刷token。当支出只有几十万美元时,它看起来像一场实验。但超过某个临界点——比如七位数——它就变成了基础设施。技术上的差异开始对损益表产生实质影响:同一个工作流、同一组输入,两次运行的token成本可能相差5到10倍,表面上看不出任何问题。在实验规模下,这种波动已经够贵;一旦进入基础设施规模,就成了CFO必须向CEO解释的数字。 可以把它称为“边际token效用”:每多花一美元推理成本所创造的商业价值。这是在规模化阶段真正重要的数字,也是大多数公司目前看不见的数字。 董事会里的问题正在从“AI有没有用”,转向“AI到底在哪里真正形成杠杆”。也正因如此,token预算之争,本质上是在争夺token的分配权。 而这场争夺之所以迅速升温,是因为它正撞上一种延续了三十年的高管本能:大团队意味着大职位、大职责范围和更大的权力。过去,高级管理者成功与否的可见标志,是他们管理的团队规模——直属下属、隔级下属,以及组织架构中的人数。 但当智能成为稀缺资源,新的标志就变成了:你能调度多少智能。 AI支出本质上正在与人工成本竞争。 大多数AI预算申请,本质上都是三类主张之一:替代外包劳动力,替代内部劳动力,或创造新的收入。 一个员工有工资。一个BPO外包合同有按工单、理赔、发片或审核计价的价格。人类理解这些计量单位。但推理成本更复杂,因为一个任务最终完成的成本,取决于系统在执行过程中如何运行。一个需要三次重试、人工修正,并且调用前沿模型的理赔任务,可能比它原本打算替代的外包人力还要贵。也正因如此,讨论正在转向:完成一个结果的成本是多少?比如每个已解决工单、每笔已处理理赔、每份已审合同、每张已完成发片、每个避免新增的岗位、每个留住的客户,或者每一美元收入转化所对应的成本。 高管们已经意识到,BPO是最容易建立基准的地方,因为这些工作本来就已经按照“完成单位”计价。相比之下,内部员工与AI的比较要困难得多——员工每天会做很多事情,包括午休时刷TikTok;生产率提升往往体现为避免招聘或分散的产能释放;管理者也会抗拒仅仅基于部分自动化就削减团队人数。BPO为业务团队提供了一个可量化的基准线。 这与SaaS的逻辑不同。SaaS曾经训练企业把使用量视为价值的袋里指标。 但AI打破了这一点。同一个工作流消耗多少推理资源,可能会因为提示词、检索到的上下文、所选模型、调用的工具、重试次数,以及agent是否卡住而出现巨大差异。账单上的单位——token——是稳定的,但它所代表的工作量并不稳定。 更准确地说:信号和噪音使用的是同一个计量单位。token账单上升,可能意味着真正的工作正在完成;但也可能意味着算力正在被浪费在糟糕的提示词、无关上下文、不必要的工具调用、重复推理和能力过剩的模型上。两家企业的token账单可能完全相同,但底层运行的业务截然不同:一家正在把推理转化为结果,另一家则是在为无效折腾买单——这两种情况在账单条目上看起来一模一样。 SaaS的使用量告诉你:软件已经被采用。AI的使用量只能告诉你:计价器正在运行。它并不能告诉你,公司到底有没有真正跑起来。为什么边际token效用难以看见?
主要有三点。 第一是重试长尾。如果一个agent第一次就正确完成工作流的概率是p,那么每个已解决工作流的预期token消耗大致会按照T/p扩大,其中T是基础成本。如果完成率从90%下降到70%,每次解决问题的有效成本大约会提高28%,而不是20%,因为失败会产生复合效应。在企业工作流中,输入往往混乱,异常情况也很重要。失败不仅会降低准确率,还会改变经济账。 第二是上下文膨胀。对于高度依赖注意力机制的操作,推理成本大致会随着上下文长度以O(n²)的方式增长。因此,上下文长度翻倍,推理成本大致会变为四倍。每个人都希望模型掌握足够信息,所以系统往往会过度供给:原本五份文档就够,检索却拉取了五十份;连接器直接倒入整条邮件线程;agent携带着早已过时的对话历史继续运行。 第三是路由。当团队不知道哪个模型“足够好”时,默认就会使用最强的模型。一个基础分类任务,可能会跑在原本用于复杂推理的同一个模型上。当调用量达到数百万次时,把简单任务交给小模型,还是把所有任务都交给前沿模型,往往就是可控账单与董事会级别问题之间的区别。 非软件行业会以一种“转型”的形式感受到这种痛苦。软件公司会最先看到这个问题,因为被优化的工作本来就已经被充分仪表化。工程团队有PR、提交、部署、事故、周期时间、平均修复时间等指标,而且这些指标与产品相连。虽然并不完美,但这类工作更容易被衡量。 非软件企业会更深刻地感受到这个问题,因为它们的工作是运营性的。比如理赔、承保、客服工单、合规审查、供应链异常、支付争议。或者,那些拥有现实世界资产的公司也会面临同样问题。这些工作流过去通常用人工、周期时间、SLA达成率和错误率来衡量,而且往往有更高要求,需要在审计中站得住脚,而不只是平均意义上正确。工作单位和成本单位并不使用同一种语言,也不处在同一个组织里。技术团队能看到token消耗,业务部门能看到工作流变化,但要把两者连接起来,需要多个团队先对“到底在衡量什么”达成一致。 可以判断,软件公司会把token预算之争体验为生产率衡量问题,这也对应了此前发生的诸多“AI裁员”;而非软件企业会把它体验为一个转型问题。 缺失的那一层,是从token到结果的归因。企业需要一个转换层,把推理支出与完成的工作、产生的业务结果连接起来。这个层必须回答三个问题:这个工作流的真实成本是多少,包括重试和修正?agent的执行轨迹中,哪些部分真正重要,哪些只是无效折腾?这项工作是否改变了运营模式——比如每个客服处理更少工单、理赔周期更短、BPO预算更小、招聘被推迟?下一层,是用业务语言来做结果归因。不是简单地说“这个工作流花了2.13美元”,而是要说:这类理赔由agent处理比BPO更便宜,但如果保单要求额外异常文件,重试长尾就会摧毁经济性。 衡量会变成记忆。为了把一个token与一个结果连接起来,企业必须捕捉中间发生的一切:agent看到了什么、检索了什么、调用了哪些工具、忽略了什么、在哪里重试、什么时候被人工覆盖、适用了哪个异常规则、哪个先例起了作用,以及为什么一条路径成功而另一条路径失败。衡量层必须记录决策轨迹,而这恰恰是企业过去几乎从未真正拥有过的东西。记录系统能够捕捉发生了什么,但很少能捕捉为什么。比如,CRM可以告诉你一笔交易延期了,但无法告诉你销售预测背后那些未被写下来的判断。 决策理由是公司里最容易腐败、最容易消失的资产之一,因为它存在于Slack线程、邮件链、升级会议和人的脑子里。但问题在于,人会离开,流程也会变化。 AI改变了这一点,因为agent会生成轨迹。每一次检索、工具调用、重试、升级、人工修正和最终决策,都会成为从上下文到行动再到结果这条路径的一部分。起初,公司会捕捉这些轨迹,是为了证明支出的合理性。但一旦这些轨迹被捕捉下来,它们就会比成本报告本身更有价值,因为它们会变成一份持久记录,记录组织实际上是如何做决策的。 分配层才是真正的奖品。如果推理成为客户运营模型中的一种按量计费资源,那么每一美元都必须证明自己值得花。哪些供应商能够说明token什么时候转化成了结果,什么时候没有,以及为什么? 企业不会自己把这件事完全摸索出来。它们会把它当作一场转型来购买。财富500强企业以前已经反复上演过这种剧本:系好安全带,聘请麦肯锡,把市场上每一个Palantir前员工都招进来,然后由CEO自上而下推动变革。Token到结果的归因也会以类似ERP、BI和数字化转型的方式出现:作为一个有高管背书的“项目”到来,底层配套一套基础设施,并最终成为新的事实来源。能够做成这件事的创始人,会组建不同类型的创始团队,他们本身也会不同于传统意义上的创业者原型。 谁掌握了token到结果的归因,谁就能做出分配决策:哪些工作流值得更多算力,哪些应该设限,哪些应该切换到更便宜的模型,哪些继续由人完成,哪些可以替代BPO。而一旦你能做出这些决策,你就控制了企业内部AI支出的流向,并获得了分配这笔资源所需的信任。 企业AI的第一阶段证明了:模型可以完成工作。下一阶段将决定的是:这些工作到底有多少值得付费。正如查理·芒格所说:给我看激励机制,我就能告诉你结果。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
修Bug被Gemini追删代码致宕机修复报告现编
最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修
Notion AI运营指南:自动归纳用户反馈
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
AI给出的答案为何总不符期望?原因解析
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4
2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解
如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

