当前位置: 首页
业界动态
NVIDIA推理软件栈实现最低Token成本

NVIDIA推理软件栈实现最低Token成本

热心网友 时间:2026-07-01
转载

6月30日消息,

How NVIDIA’s Inference Software Stack Powers the Lowest Token Cost

随着人工智能从试点阶段迈向规模化生产的AI工厂,围绕基础设施的讨论发生了根本性转变。评判标准不再是芯片峰值规格或原始算力(FLOPS),而是每个令牌的成本——在特定延迟要求下,每消耗一美元、每瓦特电能,能产出多少个有价值的令牌。这已成为行业的新标杆。

英伟达的完整推理软件栈与其GPU、CPU、网络和系统深度协同,并从广阔的开源生态中汲取力量。结果是:无需修改任何芯片,硬件性能就在持续提升。以Blackwell平台为例,软件栈在一个月内就将DeepSeek V4的令牌成本降低了高达5倍。试想一下:仅凭软件优化就实现了五倍的性能飞跃。

领先企业和推理服务提供商已经开始感受到这种叠加效应。以下是他们的具体实践摘要:

  • Baseten 借助NVIDIA TensorRT-LLM,在Blackwell上为DeepSeek V4 Pro提供推理服务,涵盖推理、编程和长上下文场景。通过专有运行时优化,他们每秒处理的令牌数提升了最多50%。
  • Cognition 采用NVIDIA Dynamo推理框架来管理其推理GPU。这为团队提供了一条现成的规模化强化学习工作负载的路径,无需从零构建基础设施。
  • Deep Infra 从第一天起就在Blackwell上使用NVIDIA推理软件栈为前沿开源模型(包括DeepSeek V4)提供服务。
  • Together AI 将Blackwell上的NVIDIA TensorRT-LLM与Cursor的需求结合,加速了从模型优化到生产端点的实时编程交付流程。

为什么软件对推理经济学至关重要

传统的Web、搜索和SaaS工作负载相对可预测:用户加载页面、刷新信息流或更新记录。请求沿着相似的软件路径执行——从数据库读取或写入——扩展只需增加更多相同的服务器。而智能体AI则完全不同。

智能体需要推理、规划、调用工具、生成专业子智能体,并在多轮工作流中管理海量上下文。单个请求会演变为一个分布式计算难题:数百个子智能体、数千个任务、多个大语言模型,横跨GPU、CPU、DPU和存储系统运行。软件栈决定了这些复杂性是转化为浪费的资源,还是转化为更低的每令牌成本。

降低每令牌成本并非源于单一魔法,而是将各项优化转化为系统级性能。NVIDIA的推理软件栈通过连接三个层次实现这一目标:

  • 生产运维层协调分布式服务、编排、自动扩缩容和内存管理,确保推理在合适的计算和存储资源上运行。
  • 应用加速层以高性能运行模型,同时为开发者提供调优和定制的空间——利用计算与通信重叠、内核融合等运行时优化。
  • 基础设施接入层开放NVIDIA GPU、网络、内存和系统能力,使开发者无需手动管理每条设备指令集或数据传输协议。

当这些层次作为一个系统协同工作时,单项优化将产生叠加效应。解耦服务、基于NVIDIA NVLink的大规模专家并行、NVFP4精度以及多令牌预测各自都能带来显著提升。综合起来,吞吐量可提升高达20倍。下面的图表展示了这一效果。要在生产环境中捕获这种增益相当复杂——需要协调整个推理栈,从生产运维和模型运行时到内核、通信库和硬件访问。NVIDIA的软件栈设计就是让这些层次协同工作,使每项优化都能相互增益。

开源生态放大全栈优势

同样的全栈基础通过开源生态得到进一步放大。当今许多最广泛使用的AI框架和推理项目都原生构建于NVIDIA CUDA之上。这意味着新的研究和软件优化从第一天起就能在NVIDIA GPU上以领先性能运行。PyTorch就是一个典型例子:它自2016年发布时就原生支持CUDA,与NVIDIA架构共同演进,让开发者通过熟悉的框架就能直接使用Tensor Core、Transformer Engine和NVFP4等创新技术。

当突破性成果出现时——比如DFlash推测解码(在现有硬件上吞吐量提升高达15倍),或FastVideo(在五秒内生成1080p视频)——它们都会落地在PyTorch中,并立即在NVIDIA上运行。这帮助AI工厂将研究进展转化为更低的令牌成本。

这种开源动力意味着,每当像DeepSeek V4这样的前沿模型发布时,领先的推理框架(如vLLM和SGLang)就会提供针对NVIDIA Blackwell架构的零日部署方案。模型随即能在数百万个Blackwell GPU上被访问。这也是为何DeepSeek V4在Blackwell上的性能在大约一个月内提升了高达5倍——在vLLM和SGLang中均如此——将令牌成本降至原先的五分之一左右。

这就是开源飞轮的运作方式:更多开发者优化CUDA原生推理路径,更多生产部署反馈到生态系统中,每次软件改进都增加实际输出的令牌量,同时持续降低每令牌成本。

来源:https://www.ithome.com/0/970/781.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

时间:2026-07-01 14:40
芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

时间:2026-07-01 14:40
月起私人充电桩可卖电 每度净赚5毛

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

时间:2026-07-01 14:39
谷歌发布Nano Banana 2 Lite 4秒出图1元4张

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

时间:2026-07-01 14:39
技嘉专业电竞装备助力2025 CFS世界总决赛

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。

时间:2026-07-01 14:39
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜