当前位置: 首页
科技数码
新华三发布大模型推理加速方案,破解显存焦虑

新华三发布大模型推理加速方案,破解显存焦虑

热心网友 时间:2026-02-03
转载

据多家权威研究机构的最新研判,到2026年,核心存储供应链的结构性短缺已成为行业面临的严峻现实,供需缺口持续扩大,并且很可能延续至2027年。这已不仅仅是存储部件的单一问题。当前,生成式AI正从技术尝鲜阶段全面走向规模化落地,大模型技术的应用场景正从训练为主,转向训推并重和轻量推理。PD分离、KVCache等技术的规模化应用在持续提升推理效率的同时,也对高带宽、大容量的GPU内存提出了极为苛刻的要求。显存资源紧张带来的行业焦虑正在持续蔓延。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

叠加存储部件供应短缺与价格跳升的双重压力,AI产业发展正面临严峻的资源与成本挑战。单纯依靠“力大砖飞”式的硬件堆叠,不仅会大幅推高单位运算成本,更会受制于供应链产能瓶颈,难以为继,严重影响到产业生态的健康与良性发展。

破局困境·架构解密:新华三打造智算推理新引擎

当前,大模型推理面临的发展困境已不容回避:模型对算力与显存的需求呈指数级增长,然而单纯堆叠GPU硬件所带来的成本与能效压力,正严重制约着技术的可持续发展。尤其在处理长文本、多轮对话等场景时,模型为保存上下文而生成的KV Cache会急剧膨胀,不仅大量占用宝贵的GPU显存,更导致大量重复计算,成为制约响应速度、推高运营成本的瓶颈。

直面成本与效率的核心痛点,紫光股份旗下新华三集团打造出效能兼备的大模型推理场景加速方案。通过其自研的定制化ASIC芯片提供硬件级加速,将KV Cache从GPU内存卸载到指定的存储节点,构建专门为AI设计的“下一代内存层”,以减轻GPU显存的压力,从而在系统层面实现了存算资源的新平衡。新华三凭借自身强大的硬件集成与全栈优化能力,驱动业内前沿科技与自研AI服务器的创新耦合,经过深度的测试调优最终形成了大模型推理加速的最佳实践,为业界提供了一条性能与成本兼顾的全新推理范式。

从部署形态来看,本方案既支持单机形态部署,直接提高单台AI服务器的推理性能;也支持通过外置存储节点的方式同时对接多台AI服务器,提高集群的整体推理性能。

破局显存焦虑:新华三推出大模型推理场景加速方案

实测验证·性能跃升:核心指标翻倍,推升深度推理新速度

为深入探究本方案中KV Cache卸载对推理性能的提升,新华三基于自研高性能AI服务器进行基准测试,重点关注在同一机型上,运行DeepSeek-V3-671B模型时,采用标准推理服务和采用KV Cache卸载加速方案的两种模式下的性能差异。分别构建10K和30K的文本输入,以模拟实际应用场景中的多轮对话推理过程,确保测试结果具有实际参考价值。经多轮验证,采用KV Cache卸载加速方案的推理核心指标显著优化:

● 并发用户数提升200%:在相同TPOT限制下,同样的算力资源可支持的并发数显著提升,在保障用户体验的同时,能服务更多的用户。

● 推理延迟大幅降低:TTFT降低70%,TPOT降低30%,大幅缩短响应延迟,提升用户体验。

破局显存焦虑:新华三推出大模型推理场景加速方案

场景适配·全域覆盖:贴合企业GenAI落地需求

● 交互式应用(多轮对话):如聊天机器人、智能客服等。这类应用中,用户与模型的交互是多轮的,后续轮次的输入通常依赖于前置对话的上下文。通过快速加载存储历史 KV Cache,能够大幅缩短响应延迟,提升用户体验。

● 长上下文处理:对于需要处理数千甚至数万Tokens上下文的任务(如长文档问答、代码生成、复杂指令理解),GPU内存容量往往成为瓶颈。本方案提供的PB级KV Cache扩展能力,使得处理这类长上下文任务更为从容,避免了因GPU内存不足导致的性能下降或任务失败。

● 高并发推理服务:在面向大量用户的在线推理服务中,系统需要同时处理多个并发请求。本方案通过高效的KV Cache管理,能够支持更多并发会话,显著提高系统的整体吞吐量,从而在相同的GPU资源下服务更多用户。

随着模型规模的扩大和用户基数的扩张,大模型推理效率正成为AI基础设施性能的关键指标。新华三凭借多年来在AI领域的技术创新与实践探索推出推理加速方案,并进行精心的调优实践,充分验证了该方案在提升推理效率方面的显著优势,进一步加速GenAI应用的发展。

GenAI时代,推理加速注定是一条持续提升、永无止境的创新之路。面向未来,新华三将持续在AI Infra领域深耕,提供更多针对不同场景,设计基于不同加速层级、不同加速介质等技术路线的推理加速方案,帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战,推动AI技术在更多领域的应用和创新。

来源:https://news.zol.com.cn/1129/11297295.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
荣耀MagicBook 14/16及Pro系列笔记本正式开启预约

荣耀MagicBook 14/16及Pro系列笔记本正式开启预约

荣耀MagicBook新品矩阵正式发布,两大产品线精准锁定办公与专业用户群 荣耀MagicBook 2024年全新产品线现已全面启动预售。全新的MagicBook 14 16系列以及定位更高的MagicBook Pro 14 16系列,已在京东、天猫旗舰店及荣耀官方商城同步开启预约通道。即刻参与预约

时间:2026-04-02 18:29
vivo 推出 Y500s 手机:骁龙 4 Gen 2、可选 8/12GB RAM,1799 元起

vivo 推出 Y500s 手机:骁龙 4 Gen 2、可选 8/12GB RAM,1799 元起

vivo Y500s 震撼登场:7200mAh 超长续航与 IP69 顶级防护,仅售 1799 元起 vivo 官方商城近日正式上线新款手机——vivo Y500s。这款新品定位清晰,并非追求极限性能,而是将核心优势聚焦于史诗级续航能力和卓越的耐用品质。其主打亮点直接指向了 7200mAh 巨无霸电

时间:2026-04-02 18:18
288Hz 高刷 1699 元起,小米 REDMI 电视 A Pro 2026 款预售开启

288Hz 高刷 1699 元起,小米 REDMI 电视 A Pro 2026 款预售开启

REDMI 电视 A Pro 2026 系列预售开启:288Hz超高刷新率与大存储引领性价比革命 近日,电视市场迎来新一轮技术下放风潮。备受关注的Redmi 电视A Pro 2026系列正式启动新品预售,此举旨在将高端流畅的视听体验带入主流消费区间。本次迭代的核心升级极为突出:业界领先的288Hz超

时间:2026-04-02 18:16
海信公布世界杯超级权益,猜中冠军最高可享3000元现金红包

海信公布世界杯超级权益,猜中冠军最高可享3000元现金红包

世界杯营销全面布局:海信如何打出四张“王牌”赢得全球用户 2026年世界杯正式进入百日倒计时。对于已连续七届赞助世界顶级足球赛事的海信来说,这不仅是一次品牌实力的全球展示,更是一场围绕用户体验展开的深度战役。近日,海信集团中国区总裁尹志新在营销战略发布会上,系统阐述了以“超级体验、超级权益、超级服务

时间:2026-04-02 18:12
续航断层优势 一加15T首发7500mAh冰川电池

续航断层优势 一加15T首发7500mAh冰川电池

一加15T全球首发7500mAh冰川电池,重新定义小屏旗舰续航标杆 近日,一加中国区总裁李杰Louis向外界透露了一个重磅消息:即将发布的小屏旗舰一加15T,将率先搭载一块容量高达7500mAh的超大容量冰川电池。这一突破性进展,预示着长期制约小屏手机的续航瓶颈,有望被彻底解决,为追求便携手感的用户

时间:2026-04-02 18:12
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程