英伟达重塑AI单用户性能:2万Tokens/秒,能耗骤降千倍
3月23日消息,如果说前几年的AI重点是训练,那么现在的重点是推理,NVIDIA上周的GTC大会上已经发布了全新的LPU芯片,就是要重塑AI推理。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在GTC大会期间,NVIDIA首席科学家Bill Dally跟谷歌首席科学家Jeff Dean两位大神有了一番精彩的深度访谈,其中Dally就谈到了NVIDIA在做的一些研究进展。
AI推理对延迟的要求很高,Dally指出目前的瓶颈已经不是算力本身,瓶颈在通信开销上,NVIDIA正在研究片上通信的静态调度,将会彻底取消路由开销、排队和仲裁,通信速度接近光速本身。
目前的技术方案中,芯片从一角到另一角的延迟有几百纳秒之多,NVIDIA的技术方案可以做到30纳秒。
片外通信中,之前的方案是一步步提高带宽速率,现在做到了400Gbps甚至800Gbps,但这样的带宽也带来了复杂的信号处理及纠错机制,但速度如果从400Gbps降低到200Gbps,复杂问题反而会消失,只做序列化延迟的话,几个时钟周期就能完成。
Dally表示他有信心未来AI推理可以做到单用户每秒10000到20000Token的推理速度——作为对比,大家要知道目前很多人用在大模型AI推理速度,普遍在100Token每秒以内,甚至每秒60Token以上的速度就算高速了。

Dally表示做到这样的速度前提是用对了架构,他还以NVFP4精度做了例子对比,用这种精度做一次乘加运算需要消耗10飞焦的能量,但HBM4从外部读取数据大约消耗15皮焦能量,差距是1000倍以上。
改用SRAM缓存的话,读取数据的能耗也会变成10飞焦了,跟计算过程的消耗一个级别。
不过SRAM也不是没代价的,芯片成本比HBM还会高的,GTC大会上NVIDIA发布的LPU芯片LPU30也只能集成500MB SRAM缓存,跟GPU集成的288GB HBM4不是一个量级的。

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
设计师三屏办公主机配置指南:轻松搭建多显示电脑
答案:为设计师打造三屏办公主机需选支持多输出的显卡、高性能CPU与大内存、扩展性强的主板,正确连接显示器并设置扩展模式,搭配稳定电源与高效散热。如果您希望搭建一套高效稳定的多屏显示
设置电脑自动关机:3个简单方法,省电又高效
推荐使用Windows自带的任务计划程序设置自动关机,稳定通用;临时用可输shutdown -s -t 秒数命令;需提醒或多周期选第三方工具如汇帮定时精灵。直接设置电脑自动关机,不
Yandex旧版镜像:无需登录,直达俄罗斯搜索
Yandex旧版无需登录地址是https: ya ru ,该入口长期保留2018–2024年蓝白极简界面,支持纯文本搜索、经典垂直频道入口、禁用动态广告与追踪,兼容低带宽及旧设备
漫蛙漫画入口防走失指南:如何快速访问官网
漫蛙漫画提供manwa me等多域名防走失入口,支持无缝切换与数据同步;阅读器含智能翻页、夜间模式、缓存下载;书架可分组管理、跨端同步进度;界面加载快、隐私保护强;社区支持锚点评论
蓝海读书官方入口与在线阅读网址使用指南
蓝海搜书最新可用网址是https: www lanhaizw com ,平台具备极简无广告界面、全球CDN加速、三类自适应阅读模式、四重语义检索、27个细分分类、跨设备同步及离线
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

