伊利诺伊大学香槟分校揭示AI智能体隐性成本与经济影响
当你向AI助手发出“帮我修一下这段代码”这样的指令时,表面上看,它只是将你的话翻译成了一个答案。但在这短短几秒的处理过程中,系统内部其实已经悄然完成了四次性质迥异的“花钱决策”:该派哪位“员工”来接单?这位员工该如何安排自己的“工作时间”?公司的“生产线”该如何分配算力资源?这次的工作经验值不值得被写进“员工手册”供未来学习?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
问题在于,今天的AI系统往往让这四个环节各自为政,独立决策。一项由伊利诺伊大学香槟分校发布于2026年5月的研究(预印本编号arXiv:2605.01214)指出,这种割裂正是系统性资源浪费的根源。

研究者的核心主张可以概括为:所有智能体AI系统,本质上都是一个“边际算力分配经济体”,而非单纯的文字生成机器。换句话说,每一个计算单元(即生成文字的最小单位“词元”)的使用,都应像精明的公司分配预算一样,反复权衡“这笔钱花在这里,到底值不值”。
一、四个“部门”各自为政,全局效率悄然流失
以一个开发者向AI编程助手报告“CI测试里auth/login功能挂了,帮我修一下”为例。这条请求进入系统后,会依次经过四道关卡,每道关卡的“负责人”都只掌握局部信息。
第一关:路由器。 它决定派哪个模型来回答问题。是用便宜但可能不够聪明的小模型,还是用昂贵但更可靠的大模型?路由器依据的是“钱”(每百万词元成本)和“质量”,但它看不到后续操作的风险。
第二关:智能体策略。 被选中的模型需要决定如何行动:是先通读整个代码库,还是直接动手写?是先规划再行动,还是遇到不确定就向用户确认?这一关关注的是“风险”——一次自主操作的错误代价有多大。
第三关:推理服务层。 负责实际生产出每一个词元。它需要协调“预填充”(处理输入)和“解码”(生成输出)这两种计算模式迥异的阶段,还要管理内存缓存以防堵塞。这一关的核心指标是“延迟”——用户需要等待多久。
第四关:训练流水线。 任务结束后,它负责评估:这次的操作记录值不值得拿去训练模型,以提升未来的能力?这一关着眼于“未来的收益”——当下的学习成本能否换来长期的能力提升。
这四道关卡背后的利益相关方分别是:用户(知道任务价值)、运营商(知道GPU算力成本)、SLA服务协议(知道延迟影响)以及安全团队(知道错误后果)。症结在于,没有任何一方能同时掌握这四个维度的完整信息。于是,每个环节都在自己的小天地里追求“最优”,合在一起却往往“失优”。
二、一个朴素公式,试图统一四个世界
研究者提出了一个统一的决策公式,用以指导系统在每一步决定“下一个词元该花在哪里”。其逻辑非常朴素:每花费一个词元,它所带来的质量提升,必须等于其计算成本、等待成本与风险成本之和。只有当这三项“支出”与质量“收益”达到平衡时,资源才算得到了最优分配。
一个小例子可以说明这个平衡有多敏感。假设系统有两个模型可选:便宜模型(质量70分,成本1分钱)和昂贵模型(质量90分,成本5分钱)。对于低价值任务,便宜模型更划算;对于高价值任务,昂贵模型才值得。两者间的“翻转点”大约在任务价值等于20时。
然而,一旦加入风险因素——比如便宜模型有5%的出错概率,昂贵模型只有1%,而每次出错的代价是50分——这个翻转点就会从20骤降至约10。风险定价的微小变动,足以彻底碘伏最优决策。遗憾的是,今天的系统几乎没有哪个环节会进行如此完整的计算。
更深层的经济学原理在于,公式中的四个“价格”(质量价值、计算成本、延迟成本、风险成本)实际上是由系统自身的算力预算、延迟上限和风险容忍度等约束条件内生决定的“影子价格”(经济学中称为“拉格朗日乘数”)。当所有四个环节都能依据同一套价格信号行动时,根据经济学中的“福利定理”,整个系统的资源分配将达到帕累托最优——即无法在不损害他人利益的情况下使任何一方变得更好。当前系统的失效,恰恰源于价格信号被割裂成了碎片。
三、路由器:在信息不对称中猜谜的“接单员”
回到编程助手的故事。请求进入后,首先面对它的是路由器。路由器需要猜测:这个任务难不难?值不值得用大模型?但用户清楚任务的紧要程度,路由器却不知道。这在经济学上被称为“信息不对称”。
经典的“柠檬市场”理论描述了类似困境:在二手车市场,卖家知道车的真实车况而买家不知道,导致好车坏车按均价交易,最终好车退出市场,市场上只剩下“柠檬”(次品)。路由器面临的是这个问题的镜像版本:用户隐藏的不是“商品质量”,而是“任务的难度和价值”。结果往往是,路由器容易将困难任务错误地分配给便宜模型,导致系统不得不支付双重成本——一次是错误尝试的成本,一次是重新调用大模型修复的成本。
更微妙的是,懂行的用户完全可以“修饰”自己的请求,让路由器误判任务价值,从而争取到更好的模型资源——这类似于斯宾塞“信号博弈”理论中,求职者用学历向雇主传递能力信号。理想的路由器设计,应该像餐厅的套餐菜单,为用户提供“自我选择”的机会:高价套餐对应高价值任务,低价套餐对应低价值任务,让用户根据真实需求自行选择,而非由系统去猜测。研究表明,当前几乎所有生产系统的路由器都缺乏此类设计,导致其在处理长尾任务时系统性出错。
因此,路由器的评价标准也应改变。目前普遍使用“准确率”或“成本节省”作为指标,但研究者认为,真正的核心指标应是“遗憾值”——即系统实际选择的模型与事后看来最优模型之间的性能差距,并且这个差距必须包含风险维度,不能只看质量和成本。
四、智能体策略:在“自主”与“请示”间走钢丝
模型被选定后,需要决定如何工作,这涉及到“自主程度”的权衡。自主程度越高,对用户的打扰越少,但出错后更难补救;自主程度越低,用户负担越重,但风险更可控。研究者用“自主合同”框架来分析这个问题。
用户的期望收益,等于任务成功价值减去算力成本,再减去自主操作的期望风险损失和人工监督的负担。最优的自主程度,就出现在“增加一点自主所节省的监督成本”恰好等于“增加一点自主所增加的出错风险”的那个平衡点上。听起来简单,但“出错风险”的分布往往极度右偏——绝大多数时候风险很小,可一旦发生灾难性错误,代价极高。一个只关注平均风险的系统,会严重低估“自主”的实际危险。
确定自主程度后,还有“内部分工”问题:同样的词元预算,该如何分配给“读代码”、“规划”、“写代码”和“跑测试验证”这四个环节?研究者指出,这四类操作是互补而非替代关系。就像烹饪,食材、刀工、火候、调味缺一不可,省掉任何一环都会让整道菜变味,而不仅仅是变“便宜”。特别是“验证”步骤,当前许多系统倾向于跳过以节省词元。但跳过验证省下的钱,往往会被用户后续发现错误、重新提交请求的成本所抵消,甚至造成更大损失。
另一个关键维度是“可逆性”。读取文件是可逆操作;提交代码变更则往往不可逆。越是不可逆的操作,越值得多花词元进行确认,就像签署合同前需要反复审阅,而非发送每条消息前都要审核。研究者建议,智能体系统应发布明确的“自主权清单”,将不同操作类型映射到不同的确认要求上:读取文件可自由进行,起草内容可自由进行,提交代码需要确认,部署上线或转账操作则需要多方确认。这相当于公司的“授权矩阵”,而目前几乎没有智能体系统明确提供这样的清单。
五、推理服务层:一条需要服务所有人的“生产线”
当模型知道该做什么后,实际生产词元的工作就交给了推理服务层。这一层面临的是一个经典的“多阶段生产与资源竞争”问题。
现代大模型推理包含两个截然不同的阶段:一是“预填充”,处理用户输入,高度依赖GPU的并行计算能力;二是“解码”,逐词生成输出,更受内存带宽限制。两者的资源需求特征完全不同,硬塞在一条流水线上会互相拖累。工业界的研究已表明,在将这两个阶段拆分之前,许多服务系统的资源利用率远未达到最优。
更复杂的是多用户共享服务时的“拥挤问题”。一个占用大量上下文缓存(KV缓存)的长文本请求,会拖慢所有其他用户的响应速度,就像高速公路上缓慢行驶的大货车占据了所有车道。最优的解决方案,是让每个请求为其实际造成的“额外等待时间”付费——类似于高峰期的道路拥堵收费。然而,今天绝大多数API都按词元数量收取统一费用,这意味着长文本用户享受了“补贴”,而短文本用户承担了“隐形税”。
研究者还将“推测解码”技术——用小模型生成候选词元,再由大模型快速验证——类比为一种“外包决策”。这种外包在候选接受率高时很划算,但一旦接受率下降(例如遇到复杂上下文),外包成本就可能超过自产成本,此时更理性的做法是放弃外包,回归大模型直接生成。当前许多系统的判断机制不够灵活。
研究者的建议是,推理服务层应将预填充、解码和缓存三类资源对应的“影子价格”实时暴露出来,让上游的路由器和智能体策略在做决策时就能将推理成本纳入考量,而不是等到服务层出现拥堵时才被动反应。
六、训练流水线:将今日经验转化为明日资本
任务结束后,其完整记录有可能成为训练数据,提升模型未来的能力。这是第四道关卡——训练流水线,它管理的是一种特殊的“投资”。
研究者将强化学习训练中的各类词元开销——用于探索的“推演词元”、用于评估的“验证词元”、用于更新模型的“梯度词元”——类比为一个资本投资组合。在这个框架下,监督微调(SFT)是低风险投资,如同国债,收益稳定但天花板低;在线强化学习是高风险投资,如同成长股,可能大赚也可能大亏,收益高度依赖“验证器”的质量;而直接偏好优化(DPO)则介于两者之间。验证词元在此扮演着“风险资本”的角色——削减验证词元,就像金融公司削减风控部门的预算,表面上节省了开支,实则让整个投资组合的尾部风险急剧上升。
缓存是另一种资本形式。任务处理后的中间结果可能被缓存以供后续类似任务复用。但缓存会“折旧”——随着时间的推移,代码库更新、需求变化,之前缓存的内容可能不再适用。研究者指出,当前系统普遍跟踪缓存命中率,却几乎不测量缓存的“折旧速度”,也不区分缓存复用时任务的价值是否匹配。一个为低价值任务生成的缓存,被高价值任务复用,可能会引入错误,而这个代价被完全忽视了。
因此,训练流水线和缓存系统都应像财务报告一样,明确报告三件事:这类投资的折旧速率、按任务价值分布的缓存命中率、以及每单位投资词元带来的边际能力提升估算。只有这样,这两种“资本账户”才能成为经济意义上的资本,而非仅仅是技术上的优化手段。
七、失败模式大全:一个价格算错,全链路遭殃
借助统一框架,研究者系统梳理了当前AI系统中反复出现的七类失败模式,每一类都能精确追溯到是哪个“价格”被错误计算。
- 过度路由: 本可用廉价模型,却派发了昂贵模型,原因是路由器的质量阈值设置过高。
- 路由不足: 本需强模型,路由器却派了弱模型,常见于只关注节省成本的系统。
- 过度委托: 智能体在应请示用户时自作主张,风险价格被严重低估,常见于自动执行代码或邮件的系统。
- 验证不足: 智能体为节省成本跳过本应进行的测试检验,风险代价被完全忽视。
- 服务拥堵: 延迟成本未被纳入定价,所有请求统一排队,长文本请求拖慢所有人,常见于按词元统一计价的API。
- 过时推演数据: 强化学习中,推演数据的产生与使用间隔过长,期间模型能力或任务分布已变,数据价值衰减,但训练流水线仍将其当作新鲜数据使用。
- 缓存滥用: 将任务的中间缓存复用于价值完全不匹配的另一任务,引发静默的质量问题。
这七类失败模式看似不同,本质都是同一决策方程中某一项被设为零或无穷大——每一种都是局部理性导致全局失效的具体案例。在多租户系统(多个用户共享同一套AI服务基础设施)中,这些失败模式还会叠加:一个占用大量缓存的用户会拉高所有人的延迟成本;一个频繁自主操作的智能体会增加整个系统的声誉风险;一个大规模强化学习任务会抢占推理资源,让他人排队更久。理想的状态是让所有租户依据同一套价格信号竞争资源,达到经济学意义上的均衡效率,但当前几乎没有生产系统实现这一点。
八、理论的边界与反驳
研究者也坦诚回应了几个可能的反对意见,并划定了理论的适用范围。
反驳一: “词元经济”只是个比喻,并非真正的理论。
回应: 这些比喻已落实为具体的一阶条件公式,并且这些公式是可以用系统日志数据检验的。一个违反对应一阶条件的系统,理论上应能被另一个满足该条件的系统帕累托主导——这是一个可实验验证的预测,而非单纯的修辞。
反驳二: 更好的基本单位应是FLOPs(浮点运算次数),而非词元。
回应: 研究者同意,对于预训练,FLOPs是合适的单位。但对于智能体系统,核心约束已非原始算力,而是延迟、风险和验证质量。词元(而非FLOPs)恰恰保留了这些维度的区分:一个用于预填充的FLOPs与一个用于工具调用的FLOPs,在经济意义上完全不同,词元单位可以标记这种差异,而FLOPs不能。
反驳三: 将所有因素装入一个强化学习的奖励函数,让梯度下降解决不就行了?
回应: 强化学习是实现手段,经济学框架是问题规格说明书。必须先知道该优化哪个目标、什么算市场失灵,才能写出正确的奖励函数。没有这个规格说明,你很可能会极其高效地优化一个错误的目标——现实中已反复出现此类情况,典型症状就是词元数量被压缩了,但风险调整后的实际收益却下降了。
研究者也列出了理论的局限。这套框架以单步边际条件为核心,不适用于价值需很长时间才能显现的任务(如持续数月的软件项目)。它假设任务价值至少部分可观测,而现实中许多任务的价值未被任何系统层级捕获。此外,将计算成本、延迟和风险统一折算为同一货币单位,在面对绝对性约束(如法律上的数据不可出境、物理上的能耗上限)时会失效,此时需要更复杂的多维度优先级排序,而非简单的加权求和。
归根结底,这篇论文所做的,与其说是提出一套新技术,不如说是提供了一种新语言——一种能让AI系统的四个“部门”(路由器、智能体、服务层、训练流水线)彼此对话、共享同一张“价格单”的共同语言。当前它们各说各话,导致整体资源分配漏洞百出。核心诊断是:这不是任何一个部门能力不足的问题,而是四个部门之间缺乏一套共同账本的问题。
下一代AI系统的竞争力,或许不在于模型参数有多大,也不只在于每个词元有多便宜,而在于系统是否有能力在质量、成本、延迟和风险这四个维度的“价格”之间,做出真正聪明的权衡——就像一位优秀的工程师,不仅懂代码,更懂得在时间、质量与风险之间找到那个恰到好处的平衡点。
一个略带讽刺的细节是,这篇探讨“如何聪明地花算力”的论文本身也是由算力生成的。如果未来的AI系统真按此框架设计,它们在处理这篇论文时,或许会非常仔细地权衡一下:为了理解“边际词元分配”这个概念,多花几个词元到底值不值?答案很可能是:值得。
Q&A
Q1:什么是“边际词元分配”?为什么说它比单纯“节省词元”更重要?
A:边际词元分配关注的是“每多花一个词元,带来的额外收益是否值得”,而非笼统地减少词元使用总量。例如,如果削减测试验证步骤能节省10个词元,但导致输出错误,用户重新提交请求修复又花了100个词元,那么这次“节省”实际上是亏损的。只关注总词元数量的系统容易陷入此类陷阱,而边际分析能精确识别哪些词元值得投入,哪些确实可以节省。
Q2:智能体系统中的“自主权清单”是什么?为什么需要它?
A:自主权清单是一套明确规定不同操作所需确认级别的规则,类似于公司的财务审批权限表。例如:读取文件可直接进行,起草文本可直接进行,但提交代码变更需要用户确认,部署上线或执行不可逆操作则需要多方审核。这套清单的意义在于将“风险”与“操作类型”明确绑定,防止智能体在应暂停请示时擅自行动,造成难以挽回的后果。目前,几乎没有商业智能体系统公开发布此类清单。
Q3:为什么将强化学习训练中的“验证词元”比作风险资本?削减它会有什么后果?
A:在训练过程中,验证词元用于评估模型输出的质量,以判断哪些学习路径值得强化。它类似于金融机构中的风险管理部门:平时成本显眼,但一旦撤除,整个系统的“出错概率”便会悄然攀升。削减验证词元能在账面上降低训练成本,但会导致模型更容易学到错误的行为模式,最终在实际应用中产生更多错误,其修复代价远超节省的金额。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
中国空间站天宫再添新舱段十战十捷圆满成功
长征七号火箭成功发射天舟十号货运飞船,实现中国空间站货运任务十战十捷。飞船运送约6 2吨物资,含航天员补给、推进剂及舱外航天服等设备,并搭载多项科学实验载荷,保障长期在轨工作生活,展现了中国自主可靠的太空运输能力。
广州人工智能百模培育计划启动
广州市将开展人工智能百模培育行动,聚焦汽车制造、智能家电等优势产业,研发“小而美”的行业专用模型,推动AI技术深度融入实体经济流程。行动计划发布不少于70个“AI+智能制造”应用场景,为模型提供试验田,加速技术从实验室走向生产线,以产业需求驱动研发,提升产业效率。
Foxglove数据平台发布助力实体AI开发效率提升
机器人行业正迎来规模化量产的关键阶段。随着企业从原型验证迈向大规模部署,数据处理的核心挑战已发生根本性转变。过去,行业聚焦于“如何获取更多数据”;如今,真正的难题在于“如何从海量数据中,高效挖掘出驱动性能提升的关键1%”。 近期,机器人数据平台Foxglove推出的一系列重要更新,正是针对这一核心痛
Humble Robotics全自动电动货运车革新物流运输模式
近日,自动驾驶货运赛道迎来一位备受瞩目的新成员。Humble Robotics正式公开亮相,并发布了一款被其定义为“革命性”的全新车型——一款完全取消驾驶舱、实现全自主运行的电动货运车,旨在为全球物流行业提供更高效率、更低成本的运输解决方案。 伴随产品发布的,是一笔高达2400万美元的种子轮融资。本
Harness Engineering 工程新范式解析是技术革新还是营销噱头
HarnessEngineering是为大模型设计控制系统的新兴工程范式,旨在提升AI智能体完成复杂任务的稳定性和可靠性。它通过优化上下文管理、建立验证闭环及多智能体协作等方法,显著提升开发效率与输出质量,被视为当前AI大规模可靠落地的关键技术路径。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

