NVIDIA推理软件栈实现最低Token成本

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

NVIDIA推理软件栈实现最低Token成本

热心网友时间：2026-07-01

转载

6月30日消息，

How NVIDIA’s Inference Software Stack Powers the Lowest Token Cost

随着人工智能从试点阶段迈向规模化生产的AI工厂，围绕基础设施的讨论发生了根本性转变。评判标准不再是芯片峰值规格或原始算力（FLOPS），而是每个令牌的成本——在特定延迟要求下，每消耗一美元、每瓦特电能，能产出多少个有价值的令牌。这已成为行业的新标杆。

英伟达的完整推理软件栈与其GPU、CPU、网络和系统深度协同，并从广阔的开源生态中汲取力量。结果是：无需修改任何芯片，硬件性能就在持续提升。以Blackwell平台为例，软件栈在一个月内就将DeepSeek V4的令牌成本降低了高达5倍。试想一下：仅凭软件优化就实现了五倍的性能飞跃。

领先企业和推理服务提供商已经开始感受到这种叠加效应。以下是他们的具体实践摘要：

Baseten 借助NVIDIA TensorRT-LLM，在Blackwell上为DeepSeek V4 Pro提供推理服务，涵盖推理、编程和长上下文场景。通过专有运行时优化，他们每秒处理的令牌数提升了最多50%。
Cognition 采用NVIDIA Dynamo推理框架来管理其推理GPU。这为团队提供了一条现成的规模化强化学习工作负载的路径，无需从零构建基础设施。
Deep Infra 从第一天起就在Blackwell上使用NVIDIA推理软件栈为前沿开源模型（包括DeepSeek V4）提供服务。
Together AI 将Blackwell上的NVIDIA TensorRT-LLM与Cursor的需求结合，加速了从模型优化到生产端点的实时编程交付流程。

为什么软件对推理经济学至关重要

传统的Web、搜索和SaaS工作负载相对可预测：用户加载页面、刷新信息流或更新记录。请求沿着相似的软件路径执行——从数据库读取或写入——扩展只需增加更多相同的服务器。而智能体AI则完全不同。

智能体需要推理、规划、调用工具、生成专业子智能体，并在多轮工作流中管理海量上下文。单个请求会演变为一个分布式计算难题：数百个子智能体、数千个任务、多个大语言模型，横跨GPU、CPU、DPU和存储系统运行。软件栈决定了这些复杂性是转化为浪费的资源，还是转化为更低的每令牌成本。

降低每令牌成本并非源于单一魔法，而是将各项优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次实现这一目标：

生产运维层协调分布式服务、编排、自动扩缩容和内存管理，确保推理在合适的计算和存储资源上运行。
应用加速层以高性能运行模型，同时为开发者提供调优和定制的空间——利用计算与通信重叠、内核融合等运行时优化。
基础设施接入层开放NVIDIA GPU、网络、内存和系统能力，使开发者无需手动管理每条设备指令集或数据传输协议。

当这些层次作为一个系统协同工作时，单项优化将产生叠加效应。解耦服务、基于NVIDIA NVLink的大规模专家并行、NVFP4精度以及多令牌预测各自都能带来显著提升。综合起来，吞吐量可提升高达20倍。下面的图表展示了这一效果。要在生产环境中捕获这种增益相当复杂——需要协调整个推理栈，从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA的软件栈设计就是让这些层次协同工作，使每项优化都能相互增益。

开源生态放大全栈优势

同样的全栈基础通过开源生态得到进一步放大。当今许多最广泛使用的AI框架和推理项目都原生构建于NVIDIA CUDA之上。这意味着新的研究和软件优化从第一天起就能在NVIDIA GPU上以领先性能运行。PyTorch就是一个典型例子：它自2016年发布时就原生支持CUDA，与NVIDIA架构共同演进，让开发者通过熟悉的框架就能直接使用Tensor Core、Transformer Engine和NVFP4等创新技术。

当突破性成果出现时——比如DFlash推测解码（在现有硬件上吞吐量提升高达15倍），或FastVideo（在五秒内生成1080p视频）——它们都会落地在PyTorch中，并立即在NVIDIA上运行。这帮助AI工厂将研究进展转化为更低的令牌成本。

这种开源动力意味着，每当像DeepSeek V4这样的前沿模型发布时，领先的推理框架（如vLLM和SGLang）就会提供针对NVIDIA Blackwell架构的零日部署方案。模型随即能在数百万个Blackwell GPU上被访问。这也是为何DeepSeek V4在Blackwell上的性能在大约一个月内提升了高达5倍——在vLLM和SGLang中均如此——将令牌成本降至原先的五分之一左右。

这就是开源飞轮的运作方式：更多开发者优化CUDA原生推理路径，更多生产部署反馈到生态系统中，每次软件改进都增加实际输出的令牌量，同时持续降低每令牌成本。

来源:https://www.ithome.com/0/970/781.htm

上一篇：年7月最新全链路GEO合规增长服务商智推时代

下一篇：罗永浩：捐一块钱也要查去向公益难以为继