华为昇腾全栈开源DeepSeek-V3.2推理方案，赋能开发者创新

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

华为昇腾全栈开源DeepSeek-V3.2推理方案，赋能开发者创新

热心网友时间：2025-09-30

转载

9月29日消息，DeepSeek-V3.2-Exp模型于今日晚间正式发布并开源，创新性地采用了稀疏Attention架构。华为随即宣布昇腾AI已基于vLLM/SGLang等主流推理框架迅速完成适配部署，实现对该模型0day级别的全面支持，并向开发者开源了所有相关推理代码和算子实现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

据介绍，昇腾AI在DeepSeek-V3.2-Exp发布的第一时间就实现了该模型BF16格式的高效部署，并在CANN计算平台上完成了针对性优化。部署方案延续了DeepSeek的大EP并行策略，同时针对稀疏DSA架构特性，创新性地实现了CP并行策略，在128K超长序列场景下仍能保持TTFT低于2秒、TPOT低于30毫秒的优异推理性能。

NPU DeepSeek-V3.2-Exp推理优化实践：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md

针对模型中全新引入的Lightning Indexer(LI)和Sparse Flash Attention(SFA)两大核心算子，昇腾团队创新性地优化了算子Tiling设计、Cube与Vector核间流水线调度等关键技术环节，现已开源相关模型和融合Kernel代码。

NPU DeepSeek-V3.2-Exp Ascend C融合算子优化：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md

为降低开发者使用门槛，CANN首次推出PyPTO大融合算子编程框架，采用PTO(Parallel Tensor/Tile Operation)创新编程范式，以Tensor为基本数据单元构建计算图。目前该框架已成功应用于DeepSeek-V3.2-Exp模型中两个核心算子的开发，仅需数百行代码即可完成动态Shape算子编程。

基于PyPTO的Lightning Indexer和DeepSeek Indexer Attention算子开发实践：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md

除提供完整模型参考实践外，昇腾AI还全面支持vLLM和SGLang等主流推理框架，开发者可直接获取社区代码体验模型性能。未来将持续优化大模型在异构计算架构下的推理效率，重点提升算子融合、稀疏访存等核心能力。

大模型推理框架vLLM及昇腾实现：

https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md

大模型推理框架SGLang及昇腾实现：

https://github.com/sgl-project/sglang/issues/11060

此外，昇腾与Tile-AI社区深度合作，基于其TileLang领域专用语言完成了Sparse Flash Attention等关键算子的NPU适配。后续将进一步完善NPU算子生态，持续提升计算性能。

NPU DeepSeek-V3.2-Exp TileLang算子开发实践：

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md