昇腾实现智谱GLM-5 744B模型单机高效推理

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

昇腾实现智谱GLM-5 744B模型单机高效推理

热心网友时间：2026-07-05

转载

2026年2月12日，智谱AI正式发布了GLM-5——这款被誉为Agentic Engineering时代最具代表性的开源模型。从“写代码”到“写工程”，模型能力实现了跨越式提升。在编程与智能体（Agent）能力方面，GLM-5达成了开源模型的最优水平，真实开发场景下的使用体验已接近Claude Opus 4.5，尤其在复杂系统工程与长周期Agent任务中表现出色。值得一提的是，昇腾持续与智谱GLM系列保持同步适配，本次GLM-5开源后，昇腾AI基础软硬件在第一时间完成了0天适配，全面支持推理部署与训练复现。

更大参数规模，更强大的智能水平

参数规模扩展：模型参数从355B（激活32B）扩展至744B（激活40B），预训练数据量从23T提升至28.5T。更大的模型规模与更充裕的训练算力，切实推动了通用智能水平的跃升。
异步强化学习：采用全新“Slime”框架，支持更大规模模型与更复杂的强化学习任务，显著提升了后训练流程效率。同时引入异步智能体强化学习算法，使模型能够从长程交互中持续学习，充分释放预训练潜力。
稀疏注意力机制：首次集成DeepSeek Sparse Attention，在保证长文本效果的前提下，大幅降低部署成本，同时提升Token处理效率——这笔投入回报相当可观。

编程能力：对齐Claude Opus 4.5

GLM-5在SWE-bench-Verified与Terminal Bench 2.0两项评测中分别取得77.4和55.7的成绩，均为开源模型最高分，并将Gemini 3.0 Pro甩在身后。

智能体能力：长程任务执行达到SOTA级

在多项Agent评测基准上，GLM-5均拿下开源第一。BrowseComp（联网检索与信息理解）、MCP-Atlas（工具调用与多步骤任务执行）、τ²-Bench（复杂多工具场景下的规划与执行）——全部取得最优成绩。

再来看看经营能力——Vending Bench 2中，GLM-5同样位居开源最佳。该测试要求模型在一年期内经营一个模拟自动售货机业务，最终账户余额达到4432美元，经营表现接近Claude Opus 4.5。长期规划与资源管理能力确实令人印象深刻。

这些能力恰恰是Agentic Engineering的核心：模型不仅需要会写代码、完成工程任务，更要在长程任务中保持目标一致、有效管理资源、处理多步骤依赖关系——这才是真正Agentic Ready基座模型应有的表现。

基于昇腾实现GLM-5的混合精度高效推理

昇腾支持对GLM模型进行W4A8混合精度量化，744B超大参数模型基于Atlas 800 A3即可实现单机部署。

GLM-5是78层decoder-only大模型：前3层为Dense FFN，后75层为MoE（路由专家+共享专家），自带一层MTP（Multi-Token Prediction）用于加速解码。针对这一结构，昇腾对权重文件采用W4A8量化，显著降低显存占用，大幅提升Decode阶段执行速度。同时，利用Lightning Indexer、Sparse Flash Attention等高性能融合算子，加速端到端推理执行。目前支持vLLM-Ascend、SGLang和xLLM这几种主流推理引擎的高效部署。

权重下载：https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8
推理部署：https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇腾W4A8量化，极大降低显存占用

采用易扩展的MsModelSlim量化工具，全程轻松量化

1、按模块区分量化比特与算法：例如Attention与MLP主体采用W8A8，MoE专家采用W4A8；gate这类对量化敏感的层可按需回退，避免精度损失过大。

2、一键即可完成量化：支持GLM-5量化全流程——“预处理+子图融合+分层线性量化”，安装后一条命令行即可轻松搞定：msmodelslim quant --model_path ${model_path} --sa ve_path ${sa ve_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供丰富量化策略，实现快速精度对齐

旋转Quarot算法：对权重进行Hadamard旋转与LayerNorm融合，降低激活异常值，改善量化后的数值分布。
多种离群值抑制算法：采用Flex_AWQ_SSZ算法与Flex_Smooth_Quant算法的混合策略，权重使用SSZ（Smooth Scale Zero）标定，支持缩放因子等超参数调整。
线性层量化策略：对单层Linear执行W8A8或W4A8量化，激活值按per-token粒度，权重按per-channel粒度。

高性能融合算子，加速推理执行

1、Lightning Indexer融合Kernel

在长序列场景下，TopK操作极易成为性能瓶颈。引入Lightning Indexer融合算子，将Score Batchmatmul、ReLU、ReduceSum、TopK等操作整合到一起，利用TopK计算耗时流水来掩盖其他操作耗时，从而提升计算流水收益。

2、Sparse Flash Attention融合Kernel

引入SFA，包含从完整KVCache中选取TopK相关Token以及计算稀疏Flash Attention的操作，通过离散聚合访存耗时掩盖其他操作耗时。

3、MLAPO融合Kernel

GLM-5在Sparse Flash Attention预处理阶段会对query和KV进行降维，并将query降维后的激活值传递给Indexer模块进行稀疏选择处理。近期将引入MLAPO，通过VV融合（多个Vector算子融合）技术，将前处理过程中的13个小算子直接融合成1个超级大算子。在MLAPO算子内部，还可通过Vector与Cube计算单元的并行处理及流水优化进一步提升性能。