企业AI算账时代 Token预算战争已进入白热化阶段

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

企业AI算账时代 Token预算战争已进入白热化阶段

热心网友时间：2026-05-28

转载

# Token预算战争：企业AI进入「算账时代」企业AI正在经历一个微妙的转折——从“要不要用”，变成了“怎么算账”。过去两年，多数公司推动员工使用AI，更多是为了不掉队、跟上技术潮流。但现在，当推理成本从实验预算变成了持续性的运营支出，CEO和CFO开始追问一个更现实的问题：每一块钱的token成本，到底带来了什么实际结果？这就是“Token预算战争”的核心。所谓token预算之争，不只是企业想把AI账单降下来，而是重新判断：哪些业务值得投入更多算力，哪些任务换成小模型就够了，哪些流程可以替代外包或人力，哪些只是在白白烧钱。这里面有个特别值得注意的点：AI的使用量，并不等于价值。在SaaS时代，使用量越高，通常意味着产品被采用得越好。但AI时代完全不同——token消耗只能说明“计价器在跑”，不能说明公司到底在跑还是在原地打转。同一个工作流，因为提示词、上下文、模型选择和重试次数不同，成本可能差出好几倍。账单变高了，可能是AI真正在干活，也可能是系统在无效折腾。所以，企业AI的下一阶段，关键不是模型能力，而是能否把token成本和业务结果对应起来。第一阶段证明了AI可以完成工作；第二阶段要回答的是：这些工作，到底值不值得付费。

企业AI已经从“是否采用”走向“如何分配”

在公司高层，新的“通货”是你量化AI投资回报率的能力。每个职能部门都被问到同一个问题：你产出了什么？成本是多少？过去两年，CEO们一边早上醒来看CNBC上的Jim Cramer，一边看着竞争对手宣布生产力提升，然后要求全公司用AI。现在真正带来压力的，是后续那个问题：把价值证明给我看。 Claude在2025年11月发布，而那时大多数企业的2026年年度预算已经锁定。到了第一季度，实际使用量远超原计划。推理成本不再只是试验预算项目，而变成了持续发生的运营成本。随之而来的问题是：AI到底在哪里真正创造了价值？这个问题很难回答，因为token的效用没有被量化。账单无法告诉你，这笔支出究竟是替代了人工、创造了收入、降低了风险、加速了流程，还是只是一群工程师为了排行榜疯狂刷token。当支出只有几十万美元时，它看起来像一场实验。但超过某个临界点——比如七位数——它就变成了基础设施。技术上的差异开始对损益表产生实质影响：同一个工作流、同一组输入，两次运行的token成本可能相差5到10倍，表面上看不出任何问题。在实验规模下，这种波动已经够贵；一旦进入基础设施规模，就成了CFO必须向CEO解释的数字。可以把它称为“边际token效用”：每多花一美元推理成本所创造的商业价值。这是在规模化阶段真正重要的数字，也是大多数公司目前看不见的数字。董事会里的问题正在从“AI有没有用”，转向“AI到底在哪里真正形成杠杆”。也正因如此，token预算之争，本质上是在争夺token的分配权。而这场争夺之所以迅速升温，是因为它正撞上一种延续了三十年的高管本能：大团队意味着大职位、大职责范围和更大的权力。过去，高级管理者成功与否的可见标志，是他们管理的团队规模——直属下属、隔级下属，以及组织架构中的人数。但当智能成为稀缺资源，新的标志就变成了：你能调度多少智能。 AI支出本质上正在与人工成本竞争。大多数AI预算申请，本质上都是三类主张之一：替代外包劳动力，替代内部劳动力，或创造新的收入。一个员工有工资。一个BPO外包合同有按工单、理赔、发片或审核计价的价格。人类理解这些计量单位。但推理成本更复杂，因为一个任务最终完成的成本，取决于系统在执行过程中如何运行。一个需要三次重试、人工修正，并且调用前沿模型的理赔任务，可能比它原本打算替代的外包人力还要贵。也正因如此，讨论正在转向：完成一个结果的成本是多少？比如每个已解决工单、每笔已处理理赔、每份已审合同、每张已完成发片、每个避免新增的岗位、每个留住的客户，或者每一美元收入转化所对应的成本。高管们已经意识到，BPO是最容易建立基准的地方，因为这些工作本来就已经按照“完成单位”计价。相比之下，内部员工与AI的比较要困难得多——员工每天会做很多事情，包括午休时刷TikTok；生产率提升往往体现为避免招聘或分散的产能释放；管理者也会抗拒仅仅基于部分自动化就削减团队人数。BPO为业务团队提供了一个可量化的基准线。这与SaaS的逻辑不同。SaaS曾经训练企业把使用量视为价值的袋里指标。但AI打破了这一点。同一个工作流消耗多少推理资源，可能会因为提示词、检索到的上下文、所选模型、调用的工具、重试次数，以及agent是否卡住而出现巨大差异。账单上的单位——token——是稳定的，但它所代表的工作量并不稳定。更准确地说：信号和噪音使用的是同一个计量单位。token账单上升，可能意味着真正的工作正在完成；但也可能意味着算力正在被浪费在糟糕的提示词、无关上下文、不必要的工具调用、重复推理和能力过剩的模型上。两家企业的token账单可能完全相同，但底层运行的业务截然不同：一家正在把推理转化为结果，另一家则是在为无效折腾买单——这两种情况在账单条目上看起来一模一样。 SaaS的使用量告诉你：软件已经被采用。AI的使用量只能告诉你：计价器正在运行。它并不能告诉你，公司到底有没有真正跑起来。

为什么边际token效用难以看见？

主要有三点。第一是重试长尾。如果一个agent第一次就正确完成工作流的概率是p，那么每个已解决工作流的预期token消耗大致会按照T/p扩大，其中T是基础成本。如果完成率从90%下降到70%，每次解决问题的有效成本大约会提高28%，而不是20%，因为失败会产生复合效应。在企业工作流中，输入往往混乱，异常情况也很重要。失败不仅会降低准确率，还会改变经济账。第二是上下文膨胀。对于高度依赖注意力机制的操作，推理成本大致会随着上下文长度以O(n²)的方式增长。因此，上下文长度翻倍，推理成本大致会变为四倍。每个人都希望模型掌握足够信息，所以系统往往会过度供给：原本五份文档就够，检索却拉取了五十份；连接器直接倒入整条邮件线程；agent携带着早已过时的对话历史继续运行。第三是路由。当团队不知道哪个模型“足够好”时，默认就会使用最强的模型。一个基础分类任务，可能会跑在原本用于复杂推理的同一个模型上。当调用量达到数百万次时，把简单任务交给小模型，还是把所有任务都交给前沿模型，往往就是可控账单与董事会级别问题之间的区别。非软件行业会以一种“转型”的形式感受到这种痛苦。软件公司会最先看到这个问题，因为被优化的工作本来就已经被充分仪表化。工程团队有PR、提交、部署、事故、周期时间、平均修复时间等指标，而且这些指标与产品相连。虽然并不完美，但这类工作更容易被衡量。非软件企业会更深刻地感受到这个问题，因为它们的工作是运营性的。比如理赔、承保、客服工单、合规审查、供应链异常、支付争议。或者，那些拥有现实世界资产的公司也会面临同样问题。这些工作流过去通常用人工、周期时间、SLA达成率和错误率来衡量，而且往往有更高要求，需要在审计中站得住脚，而不只是平均意义上正确。工作单位和成本单位并不使用同一种语言，也不处在同一个组织里。技术团队能看到token消耗，业务部门能看到工作流变化，但要把两者连接起来，需要多个团队先对“到底在衡量什么”达成一致。可以判断，软件公司会把token预算之争体验为生产率衡量问题，这也对应了此前发生的诸多“AI裁员”；而非软件企业会把它体验为一个转型问题。缺失的那一层，是从token到结果的归因。企业需要一个转换层，把推理支出与完成的工作、产生的业务结果连接起来。这个层必须回答三个问题：这个工作流的真实成本是多少，包括重试和修正？agent的执行轨迹中，哪些部分真正重要，哪些只是无效折腾？这项工作是否改变了运营模式——比如每个客服处理更少工单、理赔周期更短、BPO预算更小、招聘被推迟？下一层，是用业务语言来做结果归因。不是简单地说“这个工作流花了2.13美元”，而是要说：这类理赔由agent处理比BPO更便宜，但如果保单要求额外异常文件，重试长尾就会摧毁经济性。衡量会变成记忆。为了把一个token与一个结果连接起来，企业必须捕捉中间发生的一切：agent看到了什么、检索了什么、调用了哪些工具、忽略了什么、在哪里重试、什么时候被人工覆盖、适用了哪个异常规则、哪个先例起了作用，以及为什么一条路径成功而另一条路径失败。衡量层必须记录决策轨迹，而这恰恰是企业过去几乎从未真正拥有过的东西。记录系统能够捕捉发生了什么，但很少能捕捉为什么。比如，CRM可以告诉你一笔交易延期了，但无法告诉你销售预测背后那些未被写下来的判断。决策理由是公司里最容易腐败、最容易消失的资产之一，因为它存在于Slack线程、邮件链、升级会议和人的脑子里。但问题在于，人会离开，流程也会变化。 AI改变了这一点，因为agent会生成轨迹。每一次检索、工具调用、重试、升级、人工修正和最终决策，都会成为从上下文到行动再到结果这条路径的一部分。起初，公司会捕捉这些轨迹，是为了证明支出的合理性。但一旦这些轨迹被捕捉下来，它们就会比成本报告本身更有价值，因为它们会变成一份持久记录，记录组织实际上是如何做决策的。分配层才是真正的奖品。如果推理成为客户运营模型中的一种按量计费资源，那么每一美元都必须证明自己值得花。哪些供应商能够说明token什么时候转化成了结果，什么时候没有，以及为什么？企业不会自己把这件事完全摸索出来。它们会把它当作一场转型来购买。财富500强企业以前已经反复上演过这种剧本：系好安全带，聘请麦肯锡，把市场上每一个Palantir前员工都招进来，然后由CEO自上而下推动变革。Token到结果的归因也会以类似ERP、BI和数字化转型的方式出现：作为一个有高管背书的“项目”到来，底层配套一套基础设施，并最终成为新的事实来源。能够做成这件事的创始人，会组建不同类型的创始团队，他们本身也会不同于传统意义上的创业者原型。谁掌握了token到结果的归因，谁就能做出分配决策：哪些工作流值得更多算力，哪些应该设限，哪些应该切换到更便宜的模型，哪些继续由人完成，哪些可以替代BPO。而一旦你能做出这些决策，你就控制了企业内部AI支出的流向，并获得了分配这笔资源所需的信任。企业AI的第一阶段证明了：模型可以完成工作。下一阶段将决定的是：这些工作到底有多少值得付费。正如查理·芒格所说：给我看激励机制，我就能告诉你结果。

来源:https://www.odaily.news/zh-CN/post/5211043

上一篇：深度工作高效提示词助你快速进入心流状态

下一篇：三星家电即将迈入AI时代开启智能互联新生态