香港理工大学AI模型融合压缩技术实现性能提升新突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

香港理工大学AI模型融合压缩技术实现性能提升新突破

热心网友时间：2026-05-26

转载

香港理工大学等机构提出E-PMQ新方法，解决了AI专家模型合并后再压缩时性能下降的难题。该方法在量化过程中引入各源专家模型的输出作为引导，并利用合并权重锚定保持平衡。实验表明，E-PMQ能使压缩后模型性能超越合并前水平，且部署时仅需单一轻量模型，适用于视觉与语言任务。

将多个AI专家模型合并成一个，再压缩成小巧的格式，是部署到手机等边缘设备的理想路径。但香港理工大学联合PolyU-大亚湾技术创新研究院及InfiX.ai的研究团队发现，直接拼接这两个步骤，效果往往不尽如人意。他们提出的新方法E-PMQ，不仅解决了这个难题，甚至能让压缩后的模型表现超越合并前的状态。相关研究已于2026年5月16日以预印本形式公开。

一、从一个真实的部署难题说起

我们手机里的AI助手、平板上的图像识别，这些功能背后都运行着神经网络模型。然而，这些模型往往体积庞大，动辄占用几个GB甚至几十GB的存储空间。想把它们塞进一部手机或者一个边缘设备，就好比试图把一整个图书馆搬进一间储藏室，难度可想而知。

解决这个问题通常有两条路子。第一条是“压缩”，也就是把模型的参数从高精度的数字（比如32位浮点数）换成低精度的数字（比如4位整数），整个模型的体积一下子能缩小好几倍，这种技术叫做量化。第二条是“合并”，即把多个在不同任务上训练过的专家模型，通过数学方式混合成一个，这样一个模型就能同时具备多种能力。

一个很自然的想法是：能不能先合并，再压缩？最终得到一个既小又能干的单一模型，听起来两全其美。但现实是，直接把这两步拼凑在一起，效果常常令人失望。为此，研究团队提出了一套全新的方法——E-PMQ。

二、合并加压缩，为什么直接做不行？

让我们沿用刚才的比喻。现在不是搬一个图书馆，而是把八个不同主题的图书馆——比如汽车手册库、地图库、交通标志库——先混合成一个综合图书馆，再把这个综合图书馆压缩成袖珍版。

模型合并这一步，本质上是参数的数学混合。以常见的方法“任务算术”为例，它的做法是：计算每个专家模型相对于原始预训练模型的“改进量”（即任务向量），再把这些改进量按比例叠加回去。听起来很优雅，但不同专家的改进量之间可能互相干扰、抵消，合并后的模型未必能完整保留每个专家的能力。就像把八位厨师的秘方各取一半混在一起，最终味道可能是一锅奇怪的大杂烩。

这种“合并后的模型与原始各专家之间的偏差”，研究团队称之为“专家相对合并偏差”。

量化这一步，则是把高精度参数转换为低精度，必然会引入“量化偏差”。

问题就出在这里。当标准的量化方法（如GPTQ）直接应用于合并后的模型时，量化算法会拼命让压缩结果去接近那个已经存在偏差的合并模型。于是，合并偏差和量化偏差会叠加在一起，随着信号在网络中层层传递，误差不断积累放大，最终导致性能大幅下降。这就是“朴素合并后量化”的核心困境。

说得更直白些：如果原始专家的输出是“正确答案”，合并模型输出的是“改了几处的答案”。朴素量化是让压缩模型去模仿“改了几处的答案”，而不是努力还原“正确答案”，效果自然不理想。

三、E-PMQ的核心思路：让专家来当“老师”

研究团队提出的E-PMQ，全称是“专家引导的合并后量化”。它的核心思路可以用一个直观的场景来理解。

设想一位学生（即量化后的合并模型）需要同时掌握八门学科。朴素做法是让学生对照一本混合了八门知识的综合教材（合并模型）来学习，但这本教材本身就有混淆和错误。E-PMQ的做法则是：让八位原始学科专家（各个源专家模型）分别出题，学生根据每位专家的题目来学习，同时参照综合教材来防止自己走偏。

具体到技术层面，E-PMQ在对合并模型的每一层进行量化时，优化目标发生了根本改变。它不再只要求压缩参数模仿合并模型在该层的输出，而是同时要求其努力模仿各个源专家在该层应有的输出。为了防止模型过度偏向某一个专家而失去综合性，E-PMQ还引入了一个“合并权重锚定”项，把压缩参数拉回到合并模型的参数附近，起到平衡和稳定的作用。

这就好比给学生拴了一根有弹性的绳子：绳子允许他自由移动去向各位专家请教，但另一端固定在综合教材旁边，防止他完全跑到某一门学科里而忘了其他。

四、数学背后的细节：量化时怎么操作？

理解了直觉，再来看看E-PMQ在数学上如何实现。传统的GPTQ量化，其优化目标是让压缩层的输出尽量接近合并模型该层的输出。

E-PMQ则改写这个目标。它的优化目标由两部分组成：第一部分是让压缩参数在应对第i个专家任务时，其输出尽可能接近第i个源专家模型的输出，且对所有专家任务都要同时满足；第二部分则是约束压缩参数本身不要离合并模型的参数太远。前者负责向专家学习，后者负责保持综合性。

锚定的强度由一个参数α控制，并且是自适应的——它会根据不同层激活值的规模自动调整，确保每层都能得到合理的约束。

在求解这个优化目标时，E-PMQ巧妙地复用了GPTQ高效实现的工程框架，只需修改其内部使用的统计量，而无需重写整个求解过程。量化按照网络的前向顺序逐层进行，直到所有层都完成量化，最终得到一个单一的低比特合并模型。

五、专家只在“备考阶段”出现，正式上场只有一个模型

这一点特别关键，它直接关系到这项技术的实用价值。E-PMQ要求在量化阶段能够访问各个源专家模型，用它们来构建学习目标。这确实比朴素量化需要更多的计算资源，因为需要加载多个模型并为每个任务收集数据。

但这一切都只发生在部署之前的“备考阶段”。一旦量化完成，部署到设备上的就只有一个单一的低比特合并模型，既没有源专家，也没有任何额外的推理模块。从用户或设备的角度看，E-PMQ产出的模型与普通量化模型毫无二致：一个文件，一个模型，直接运行。所有的额外努力都在幕后完成了。

六、在视觉识别任务上的表现：从“大败”到“反超”

研究团队在视觉识别任务上进行了系统性测试，使用了OpenAI的CLIP模型。测试涵盖八项图像分类任务。

在八任务设置下，以“任务算术”方式合并的CLIP-ViT-B/32模型，全精度合并后平均准确率为68.0%。直接用GPTQ进行4比特量化后，准确率跌至65.0%。而使用E-PMQ后，准确率不降反升，达到了73.6%，比全精度合并模型还高出5.6个百分点。这意味着E-PMQ不仅在减少量化损失，实际上还在量化过程中帮助模型纠正了一部分合并带来的偏差。

对于质量更高的“WUDI合并”方式，全精度合并后准确率已高达84.5%，E-PMQ在4比特量化后仍能达到82.4%，与GPTQ的81.1%相近，保持了稳健性。

七、挑战升级：更多专家、更大模型，E-PMQ能否扛住？

研究团队进一步将测试规模扩展到14任务和20任务，并在更大的CLIP-ViT-L/14模型上验证。

结果非常显著。在20任务的CLIP-ViT-B/32设置下，“任务算术”合并后全精度模型的平均准确率仅有36.3%，这说明合并20个专家时参数干扰已非常严重。GPTQ量化后进一步跌至35.0%。而E-PMQ量化后则达到了64.2%，比全精度合并模型高出近28个百分点。

在更大的CLIP-ViT-L/14模型上，20任务设置下，GPTQ量化后准确率仅34.8%，而E-PMQ达到76.7%，提升了近42个百分点。这表明，任务数越多、合并质量越差，E-PMQ通过源专家引导所能带来的修正效果就越显著。

八、语言模型也适用：FLAN-T5在自然语言理解任务上的验证

视觉任务的成功并不意味着E-PMQ只适用于图像模型。研究团队在自然语言处理领域也进行了验证，使用谷歌的FLAN-T5-base模型在八项自然语言理解任务上测试。

在“任务算术”合并方式下，全精度合并模型平均得分78.79。GPTQ量化后略降至78.26。而E-PMQ量化后则达到了83.34，比全精度合并模型高出4.55个百分点。

其中，在MNLI任务上，全精度合并模型得分57.66，GPTQ量化后降至55.99，而E-PMQ量化后飙升至82.50，提升幅度超过24个百分点。这说明在该任务上合并本身存在较大偏差，而E-PMQ在量化过程中有效修正了这一偏差。

九、更大的语言模型：Llama-3.1系列的测试

研究团队还在Meta的Llama-3.1-3B和Llama-3.1-8B模型上进行了初步验证，合并了指令跟随、编程、数学推理和多语言理解四位专家。

在Llama-3.1-3B上，E-PMQ量化后的得分最接近全精度水平。在Llama-3.1-8B上，E-PMQ同样是所有量化方法中最优的。不过，在大型语言模型上，E-PMQ的相对提升幅度比在视觉和中等规模语言模型上要小一些，这可能与LLM的量化难度、合并配置及评测任务多样性有关，未来还需更深入的探索。