国产AI推理千卡集群首次落地采用云天励飞自研芯片

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

国产AI推理千卡集群首次落地采用云天励飞自研芯片

热心网友时间：2026-05-28

转载

近日，国内AI算力领域迎来标志性进展：云天励飞成功中标湛江市“AI渗透支撑新质生产力基础设施建设项目”，中标金额达4.2亿元。该项目的核心任务是建设一个基于全自研国产AI推理加速卡的千卡级智算集群，标志着国产化AI推理基础设施迈入大规模部署新阶段。

国内首个国产AI推理千卡集群落地，采用云天励飞全自研AI推理芯片

该集群建成后，将重点承载DeepSeek等国产大模型的推理任务，旨在为政务数字化、产业智能化及多元应用场景提供高效、低成本、自主可控的AI算力服务，致力于打造“国产大模型+国产AI芯片”协同创新的生态典范。

一、AI算力重心转移：从模型训练走向规模化推理

智算中心已成为人工智能时代不可或缺的新型基础设施。如同电力之于工业革命，互联网之于信息社会，智能算力正成为驱动AI规模化应用的核心底座。

在AI算力体系中，通常分为训练算力与推理算力两大部分。训练算力专注于模型从无到有的能力构建，而推理算力则直接决定了AI技术能否在实际场景中高效、稳定地运行。无论是此前引发热议的AI视频应用，还是深入各行各业的智能体（AI Agent），其流畅体验的背后都离不开强大推理算力的支撑。行业分析机构Gartner预测，到2026年，AI专用云基础设施支出中，用于推理工作负载的比例将上升至约55%，这清晰揭示了市场重心向推理端倾斜的趋势。

与过去常见的“训推一体”建设模式不同，湛江项目明确聚焦于推理任务，专门服务于产业智能化转型中的实际应用需求。这一转向具有重要的示范意义。

值得一提的是，湛江是国产大模型DeepSeek创始人梁文峰的家乡，当地在推动“DeepSeek+”本土化应用方面布局积极。2025年初，基于国产技术栈的DeepSeek-R1大模型已在湛江政务云完成部署，在处理通用政务的同时，持续学习本地产业知识与方言，逐步形成具有地方特色的“湛江智慧”。

此次云天励飞中标的AI推理集群，将进一步与DeepSeek等国产大模型进行深度适配与优化，为更广泛的行业应用落地提供坚实、自主的算力基石。

二、专为推理优化：千卡集群的先进架构设计

面向大模型的实际部署，推理系统需要同时应对高并发、高吞吐与低延迟的挑战。当前主流解决方案是采用“Prefill（预填充）–Decode（解码）分离”的架构，通过对不同计算阶段进行针对性资源调配，实现系统整体性能最优。

具体而言，Prefill阶段负责处理用户输入的整个上下文，计算密集且对内存带宽要求极高；Decode阶段则负责逐个生成输出Token，对响应延迟极为敏感。如何平衡两个阶段的资源分配，是推理架构设计的核心。

同时，随着大模型上下文长度不断增长，存储中间状态的KV Cache对内存系统带来巨大压力。业界共识是，未来推理系统的瓶颈将更多来自数据访问效率，而不仅是计算能力本身。因此，计算、存储与网络三者的协同设计，已成为提升AI基础设施竞争力的关键。

湛江落地的千卡推理集群正是基于这一理念构建。它采用云天励飞全自研的AI推理芯片，并确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片层面进行计算与存储带宽的针对性设计，确保系统即使在处理长上下文任务时也能保持高吞吐。

在网络层面，集群采用统一的400G高速光互联架构，实现了节点间高带宽、低延迟的同构网络通信，避免了异构协议转换带来的性能损耗与部署复杂性。

该架构具备高度弹性，既可支持小规模数十卡的灵活部署，也能平滑扩展至千卡级大规模集群，以适应不同体量的AI应用需求。

针对KV Cache访问带来的挑战，系统通过计算网络与存储网络的协同调度优化，显著提升了长上下文推理时的数据读取效率，保障了性能稳定性。

通过芯片、网络与系统调度的多层次协同优化，该集群在整体能效与成本控制方面展现出显著优势，为AI的规模化、经济化应用提供了新的解决方案。

三、自研芯片驱动：构筑低成本、高效率推理底座

据悉，该AI推理集群将分三期建设，全部采用云天励飞自主研发的国产AI推理加速卡。一期将部署X6000推理加速卡，二、三期则会率先搭载其新一代芯片产品。

根据规划，云天励飞将在未来三年内推出三代AI推理芯片：首代聚焦长上下文Prefill阶段优化，为各类AI智能体应用提供基础算力；第二代将专注于Decode阶段的低延迟优化；第三代则致力于通过系统级协同，实现Prefill与Decode性能的全面提升，向毫秒级推理时延迈进。其中，首款Prefill芯片DeepVerse100预计年内流片，并计划在湛江集群进行首批部署验证。

更长远来看，公司提出了“1001计划”的远景目标，即通过芯片与系统的深度协同，持续降低推理成本，迈向“百亿Token一分钱”的极致能效。

回顾AI算力发展，早期往往以“堆砌算力”追求峰值性能为主。但随着大模型进入产业深水区，竞争焦点正从“算力规模”转向“单位成本下的计算效率”。换言之，未来的核心竞争力在于能否以更低的成本提供稳定、大规模的推理服务。

湛江千卡集群的落地，正是这一趋势的先行实践。它不仅满足了当前应用需求，更成为未来更大规模算力系统关键技术（如卡间互联、节点通信、负载均衡）的验证平台。典型的千卡集群通常由多级扩展结构组成，其实际运行为构建万卡乃至更大规模系统积累了宝贵经验。

随着大模型加速赋能实体经济，AI基础设施的发展逻辑正在深刻演变——从追求绝对规模转向注重实际效率与综合成本。推理算力已成为决定AI应用能否大规模普及的关键。谁能够以更高效率、更低成本提供稳定可靠的大规模推理能力，谁就将在新一轮人工智能产业竞争中占据战略主动。

湛江国产AI推理千卡集群的建设，不仅为当地乃至区域的产业数字化转型提供了强大算力支撑，更为“国产模型”与“国产芯片”的协同创新提供了宝贵的集成验证场景。在“国模国芯”的深度融合下，AI基础设施正从技术探索走向规模化应用，为中国人工智能产业的自主化、高质量发展开辟了新的广阔空间。

来源:https://m.elecfans.com/article/7749928.html

上一篇：阿里云海外推出Qwen Cloud云服务

下一篇：夸克AI助创业者写BP，投资人视角优化建议