国产AI推理千卡集群首次落地 采用云天励飞自研芯片
近日,国内AI算力领域迎来标志性进展:云天励飞成功中标湛江市“AI渗透支撑新质生产力基础设施建设项目”,中标金额达4.2亿元。该项目的核心任务是建设一个基于全自研国产AI推理加速卡的千卡级智算集群,标志着国产化AI推理基础设施迈入大规模部署新阶段。

该集群建成后,将重点承载DeepSeek等国产大模型的推理任务,旨在为政务数字化、产业智能化及多元应用场景提供高效、低成本、自主可控的AI算力服务,致力于打造“国产大模型+国产AI芯片”协同创新的生态典范。
一、AI算力重心转移:从模型训练走向规模化推理
智算中心已成为人工智能时代不可或缺的新型基础设施。如同电力之于工业革命,互联网之于信息社会,智能算力正成为驱动AI规模化应用的核心底座。
在AI算力体系中,通常分为训练算力与推理算力两大部分。训练算力专注于模型从无到有的能力构建,而推理算力则直接决定了AI技术能否在实际场景中高效、稳定地运行。无论是此前引发热议的AI视频应用,还是深入各行各业的智能体(AI Agent),其流畅体验的背后都离不开强大推理算力的支撑。行业分析机构Gartner预测,到2026年,AI专用云基础设施支出中,用于推理工作负载的比例将上升至约55%,这清晰揭示了市场重心向推理端倾斜的趋势。
与过去常见的“训推一体”建设模式不同,湛江项目明确聚焦于推理任务,专门服务于产业智能化转型中的实际应用需求。这一转向具有重要的示范意义。
值得一提的是,湛江是国产大模型DeepSeek创始人梁文峰的家乡,当地在推动“DeepSeek+”本土化应用方面布局积极。2025年初,基于国产技术栈的DeepSeek-R1大模型已在湛江政务云完成部署,在处理通用政务的同时,持续学习本地产业知识与方言,逐步形成具有地方特色的“湛江智慧”。
此次云天励飞中标的AI推理集群,将进一步与DeepSeek等国产大模型进行深度适配与优化,为更广泛的行业应用落地提供坚实、自主的算力基石。
二、专为推理优化:千卡集群的先进架构设计
面向大模型的实际部署,推理系统需要同时应对高并发、高吞吐与低延迟的挑战。当前主流解决方案是采用“Prefill(预填充)–Decode(解码)分离”的架构,通过对不同计算阶段进行针对性资源调配,实现系统整体性能最优。
具体而言,Prefill阶段负责处理用户输入的整个上下文,计算密集且对内存带宽要求极高;Decode阶段则负责逐个生成输出Token,对响应延迟极为敏感。如何平衡两个阶段的资源分配,是推理架构设计的核心。
同时,随着大模型上下文长度不断增长,存储中间状态的KV Cache对内存系统带来巨大压力。业界共识是,未来推理系统的瓶颈将更多来自数据访问效率,而不仅是计算能力本身。因此,计算、存储与网络三者的协同设计,已成为提升AI基础设施竞争力的关键。
湛江落地的千卡推理集群正是基于这一理念构建。它采用云天励飞全自研的AI推理芯片,并确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片层面进行计算与存储带宽的针对性设计,确保系统即使在处理长上下文任务时也能保持高吞吐。
在网络层面,集群采用统一的400G高速光互联架构,实现了节点间高带宽、低延迟的同构网络通信,避免了异构协议转换带来的性能损耗与部署复杂性。
该架构具备高度弹性,既可支持小规模数十卡的灵活部署,也能平滑扩展至千卡级大规模集群,以适应不同体量的AI应用需求。
针对KV Cache访问带来的挑战,系统通过计算网络与存储网络的协同调度优化,显著提升了长上下文推理时的数据读取效率,保障了性能稳定性。
通过芯片、网络与系统调度的多层次协同优化,该集群在整体能效与成本控制方面展现出显著优势,为AI的规模化、经济化应用提供了新的解决方案。
三、自研芯片驱动:构筑低成本、高效率推理底座
据悉,该AI推理集群将分三期建设,全部采用云天励飞自主研发的国产AI推理加速卡。一期将部署X6000推理加速卡,二、三期则会率先搭载其新一代芯片产品。
根据规划,云天励飞将在未来三年内推出三代AI推理芯片:首代聚焦长上下文Prefill阶段优化,为各类AI智能体应用提供基础算力;第二代将专注于Decode阶段的低延迟优化;第三代则致力于通过系统级协同,实现Prefill与Decode性能的全面提升,向毫秒级推理时延迈进。其中,首款Prefill芯片DeepVerse100预计年内流片,并计划在湛江集群进行首批部署验证。
更长远来看,公司提出了“1001计划”的远景目标,即通过芯片与系统的深度协同,持续降低推理成本,迈向“百亿Token一分钱”的极致能效。
回顾AI算力发展,早期往往以“堆砌算力”追求峰值性能为主。但随着大模型进入产业深水区,竞争焦点正从“算力规模”转向“单位成本下的计算效率”。换言之,未来的核心竞争力在于能否以更低的成本提供稳定、大规模的推理服务。
湛江千卡集群的落地,正是这一趋势的先行实践。它不仅满足了当前应用需求,更成为未来更大规模算力系统关键技术(如卡间互联、节点通信、负载均衡)的验证平台。典型的千卡集群通常由多级扩展结构组成,其实际运行为构建万卡乃至更大规模系统积累了宝贵经验。
随着大模型加速赋能实体经济,AI基础设施的发展逻辑正在深刻演变——从追求绝对规模转向注重实际效率与综合成本。推理算力已成为决定AI应用能否大规模普及的关键。谁能够以更高效率、更低成本提供稳定可靠的大规模推理能力,谁就将在新一轮人工智能产业竞争中占据战略主动。
湛江国产AI推理千卡集群的建设,不仅为当地乃至区域的产业数字化转型提供了强大算力支撑,更为“国产模型”与“国产芯片”的协同创新提供了宝贵的集成验证场景。在“国模国芯”的深度融合下,AI基础设施正从技术探索走向规模化应用,为中国人工智能产业的自主化、高质量发展开辟了新的广阔空间。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
修Bug被Gemini追删代码致宕机修复报告现编
最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修
Notion AI运营指南:自动归纳用户反馈
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
AI给出的答案为何总不符期望?原因解析
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4
2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解
如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

