AWQ（激活感知权重量化）

本次查询AWQAI 热词解释结果

中文解释激活感知权重量化

热词类型模型优化技术

常见场景大模型部署与推理加速

一句话解释

AWQ（Activation-aware Weight Quantization）是一种基于激活值分布感知的权重量化方法。它能在保持大模型推理精度的前提下，将模型参数从16位浮点数压缩到4或3位整型，从而显著降低显存占用和计算开销。

随着LLM参数规模持续膨胀，在消费级GPU上部署变得极具挑战。AWQ通过识别激活值中的异常通道并优先保护重要权重，实现了低比特量化且精度损失极小，这让70B模型也能在24GB显存的显卡上流畅推理，极大地推动了LLM的本地化应用。

AWQ的核心思想是：并非所有权重对模型输出同等重要。它利用小批量校准数据统计每个通道的激活值幅度，发现少数通道的激活值异常大，这些通道对应的权重对精度影响更大。量化时对这些敏感通道采用更高精度或倍数缩放因子，其余通道则用低比特量化。

相比传统均匀量化，AWQ通过这种感知激活的差异化处理，在仅增加极少计算开销的情况下显著保留模型性能。该方法无需反向传播或梯度更新，量化速度比GPTQ更快，且部署时无需额外数据校准。

AWQ广泛应用于需要在本地设备上运行大模型的场景，例如在RTX 4090上部署Llama 2 70B，或在笔记本电脑上运行7B模型进行离线对话。主流推理框架如vLLM、TGI、llama.cpp均已支持AWQ量化格式。

此外，云端服务在追求低延迟推理时也会采用AWQ，通过4-bit量化将显存需求降低4倍，从而在相同硬件上容纳更多用户并发请求，同时保持与FP16相近的回答质量。

很多用户会混淆AWQ与GPTQ。GPTQ基于二阶梯度（Hessian矩阵）进行逐层优化，量化精度更高但速度较慢；AWQ则利用激活值分布，不需要反向传播，量化速度更快，且在低比特（如3-bit）下优势更明显。

另外，AWQ与NormalFloat（NF4）不同：NF4假设权重服从对称分布，用数学变换映射到4-bit；AWQ则直接根据激活异常调整缩放因子，对非对称分布更鲁棒。量化后模型格式也互不兼容，部署时需选择对应的推理后端。

来源：AI 热词解释频道整理

AWQ 模型量化大模型推理 INT4 LLM

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

LLM更新：2026-05-14

LLM（大语言模型）是一种基于海量文本数据训练、能够理解、生成和推理自然语言的深度学习模型。它通过预测下一个词的机制，掌握了语言的统计规律和世界知识，成为当前生成式AI应用的核心基础。

INT4更新：2026-06-01

INT4 是一种将 AI 模型权重从 32 位浮点数压缩到 4 位整数的技术。它大幅降低模型体积和计算需求，让大语言模型能在手机、笔记本甚至嵌入式设备上运行，是边缘 AI 和端侧推理的关键技术。

常查热词