NVIDIA推理软件栈实现最低Token成本
6月30日消息,

随着人工智能从试点阶段迈向规模化生产的AI工厂,围绕基础设施的讨论发生了根本性转变。评判标准不再是芯片峰值规格或原始算力(FLOPS),而是每个令牌的成本——在特定延迟要求下,每消耗一美元、每瓦特电能,能产出多少个有价值的令牌。这已成为行业的新标杆。
英伟达的完整推理软件栈与其GPU、CPU、网络和系统深度协同,并从广阔的开源生态中汲取力量。结果是:无需修改任何芯片,硬件性能就在持续提升。以Blackwell平台为例,软件栈在一个月内就将DeepSeek V4的令牌成本降低了高达5倍。试想一下:仅凭软件优化就实现了五倍的性能飞跃。
领先企业和推理服务提供商已经开始感受到这种叠加效应。以下是他们的具体实践摘要:
- Baseten 借助NVIDIA TensorRT-LLM,在Blackwell上为DeepSeek V4 Pro提供推理服务,涵盖推理、编程和长上下文场景。通过专有运行时优化,他们每秒处理的令牌数提升了最多50%。
- Cognition 采用NVIDIA Dynamo推理框架来管理其推理GPU。这为团队提供了一条现成的规模化强化学习工作负载的路径,无需从零构建基础设施。
- Deep Infra 从第一天起就在Blackwell上使用NVIDIA推理软件栈为前沿开源模型(包括DeepSeek V4)提供服务。
- Together AI 将Blackwell上的NVIDIA TensorRT-LLM与Cursor的需求结合,加速了从模型优化到生产端点的实时编程交付流程。
为什么软件对推理经济学至关重要
传统的Web、搜索和SaaS工作负载相对可预测:用户加载页面、刷新信息流或更新记录。请求沿着相似的软件路径执行——从数据库读取或写入——扩展只需增加更多相同的服务器。而智能体AI则完全不同。
智能体需要推理、规划、调用工具、生成专业子智能体,并在多轮工作流中管理海量上下文。单个请求会演变为一个分布式计算难题:数百个子智能体、数千个任务、多个大语言模型,横跨GPU、CPU、DPU和存储系统运行。软件栈决定了这些复杂性是转化为浪费的资源,还是转化为更低的每令牌成本。
降低每令牌成本并非源于单一魔法,而是将各项优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次实现这一目标:
- 生产运维层协调分布式服务、编排、自动扩缩容和内存管理,确保推理在合适的计算和存储资源上运行。
- 应用加速层以高性能运行模型,同时为开发者提供调优和定制的空间——利用计算与通信重叠、内核融合等运行时优化。
- 基础设施接入层开放NVIDIA GPU、网络、内存和系统能力,使开发者无需手动管理每条设备指令集或数据传输协议。
当这些层次作为一个系统协同工作时,单项优化将产生叠加效应。解耦服务、基于NVIDIA NVLink的大规模专家并行、NVFP4精度以及多令牌预测各自都能带来显著提升。综合起来,吞吐量可提升高达20倍。下面的图表展示了这一效果。要在生产环境中捕获这种增益相当复杂——需要协调整个推理栈,从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA的软件栈设计就是让这些层次协同工作,使每项优化都能相互增益。
开源生态放大全栈优势
同样的全栈基础通过开源生态得到进一步放大。当今许多最广泛使用的AI框架和推理项目都原生构建于NVIDIA CUDA之上。这意味着新的研究和软件优化从第一天起就能在NVIDIA GPU上以领先性能运行。PyTorch就是一个典型例子:它自2016年发布时就原生支持CUDA,与NVIDIA架构共同演进,让开发者通过熟悉的框架就能直接使用Tensor Core、Transformer Engine和NVFP4等创新技术。
当突破性成果出现时——比如DFlash推测解码(在现有硬件上吞吐量提升高达15倍),或FastVideo(在五秒内生成1080p视频)——它们都会落地在PyTorch中,并立即在NVIDIA上运行。这帮助AI工厂将研究进展转化为更低的令牌成本。
这种开源动力意味着,每当像DeepSeek V4这样的前沿模型发布时,领先的推理框架(如vLLM和SGLang)就会提供针对NVIDIA Blackwell架构的零日部署方案。模型随即能在数百万个Blackwell GPU上被访问。这也是为何DeepSeek V4在Blackwell上的性能在大约一个月内提升了高达5倍——在vLLM和SGLang中均如此——将令牌成本降至原先的五分之一左右。
这就是开源飞轮的运作方式:更多开发者优化CUDA原生推理路径,更多生产部署反馈到生态系统中,每次软件改进都增加实际输出的令牌量,同时持续降低每令牌成本。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
诺基亚TA-1619入网:1400mAh电池双卡双待新机
诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容
芯佰微CBMRF900系列国产射频芯片突破海外壁垒
芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。
月起私人充电桩可卖电 每度净赚5毛
近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,
谷歌发布Nano Banana 2 Lite 4秒出图1元4张
先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便
技嘉专业电竞装备助力2025 CFS世界总决赛
2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-01 14:40
2026-07-01 14:40
2026-07-01 14:39
2026-07-01 14:39
2026-07-01 14:39
2026-07-01 14:39
2026-07-01 14:38
2026-07-01 14:38
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

