AWQ(激活感知权重量化)
AWQ是一种针对大语言模型的低比特量化技术,通过分析激活值分布,对敏感通道保留更高精度,从而在极小精度损失下实现4-bit甚至3-bit量化,大幅降低显存占用和推理延迟。
一句话解释
AWQ(Activation-aware Weight Quantization)是一种基于激活值分布感知的权重量化方法。它能在保持大模型推理精度的前提下,将模型参数从16位浮点数压缩到4或3位整型,从而显著降低显存占用和计算开销。
为什么会被关注
随着LLM参数规模持续膨胀,在消费级GPU上部署变得极具挑战。AWQ通过识别激活值中的异常通道并优先保护重要权重,实现了低比特量化且精度损失极小,这让70B模型也能在24GB显存的显卡上流畅推理,极大地推动了LLM的本地化应用。
核心逻辑
AWQ的核心思想是:并非所有权重对模型输出同等重要。它利用小批量校准数据统计每个通道的激活值幅度,发现少数通道的激活值异常大,这些通道对应的权重对精度影响更大。量化时对这些敏感通道采用更高精度或倍数缩放因子,其余通道则用低比特量化。
相比传统均匀量化,AWQ通过这种感知激活的差异化处理,在仅增加极少计算开销的情况下显著保留模型性能。该方法无需反向传播或梯度更新,量化速度比GPTQ更快,且部署时无需额外数据校准。
常见场景
AWQ广泛应用于需要在本地设备上运行大模型的场景,例如在RTX 4090上部署Llama 2 70B,或在笔记本电脑上运行7B模型进行离线对话。主流推理框架如vLLM、TGI、llama.cpp均已支持AWQ量化格式。
此外,云端服务在追求低延迟推理时也会采用AWQ,通过4-bit量化将显存需求降低4倍,从而在相同硬件上容纳更多用户并发请求,同时保持与FP16相近的回答质量。
容易混淆的点
很多用户会混淆AWQ与GPTQ。GPTQ基于二阶梯度(Hessian矩阵)进行逐层优化,量化精度更高但速度较慢;AWQ则利用激活值分布,不需要反向传播,量化速度更快,且在低比特(如3-bit)下优势更明显。
另外,AWQ与NormalFloat(NF4)不同:NF4假设权重服从对称分布,用数学变换映射到4-bit;AWQ则直接根据激活异常调整缩放因子,对非对称分布更鲁棒。量化后模型格式也互不兼容,部署时需选择对应的推理后端。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词LLM(大语言模型)是一种基于海量文本数据训练、能够理解、生成和推理自然语言的深度学习模型。它通过预测下一个词的机制,掌握了语言的统计规律和世界知识,成为当前生成式AI应用的核心基础。
INT4 是一种将 AI 模型权重从 32 位浮点数压缩到 4 位整数的技术。它大幅降低模型体积和计算需求,让大语言模型能在手机、笔记本甚至嵌入式设备上运行,是边缘 AI 和端侧推理的关键技术。

