上交大冷静文：AI模型发展需与芯片及系统厂商协同创新

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

上交大冷静文：AI模型发展需与芯片及系统厂商协同创新

热心网友时间：2026-05-16

转载

近期，在由IEEE计算机协会主办的HPCA 2025（高性能计算机架构国际研讨会）上，一项来自上海交通大学与AI基础设施初创公司魔形智能的联合研究引起了业界关注。他们发表的论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》，提出了一种名为VQ-LLM的新框架。

这个框架的核心，在于通过两项关键技术——分层代码本缓存和代码本中心计算引擎，成功将大语言模型（LLM）的推理延迟降低了超过50%。其性能表现，也超越了传统同比特宽度的逐元素量化方法。这标志着，向量量化（VQ）这项技术，在追求极致压缩的同时，终于找到了一个能兼顾高精度与高效率的可行部署方案，不再只是纸面上的理论优势。

当前，大模型压缩领域的研究层出不穷，但多数焦点都放在了单元素量化上。向量量化的独特价值在于，它能挖掘数据组内的相关性，从而实现更极致的等效比特压缩。换句话说，在达到相近精度的前提下，向量量化能“压”得更狠。这也是该论文研究的核心出发点。

这项工作的主要负责人，是上海期智研究院PI、上海交通大学计算机科学与工程系教授冷静文。他的研究背景横跨体系结构优化与硬件设计，目前团队的兴趣点聚焦于芯片架构与高速互联，特别是数据流芯片的内部设计以及超节点级别的硬件互联方案。此前，他们已发布过一系列基于数据流和底层算子的优化组件。

针对近期因DeepSeek模型而引发广泛讨论的国产芯片FP8支持问题，冷静文教授指出了背后的历史原因：在大模型浪潮之前，业界普遍认为现有算力已足够，缺乏提前布局低位宽算力的动力，这导致当前一代国产芯片可能普遍面临类似挑战。在他看来，单纯模仿英伟达的设计路径难以实现超越，必须融入原创性思考，这也是其团队探索数据流芯片架构的初衷之一。“GPU的红利期已持续数十年，或许已接近尾声。未来的芯片架构与编程范式该如何设计？我们试图通过数据流的方式寻找答案。”

以下是本次对话的详细内容：

向量量化与大模型压缩

问：可以介绍一下这项与魔形智能合作的论文工作吗？最初的研究动机是什么？

冷静文：我们的出发点很明确：大模型至关重要，但其巨大的计算量和存储消耗也是现实瓶颈。因此，模型压缩成为一个热门方向。目前，许多代表性工作集中在量化上，例如将FP16数据压缩到4比特。然而，这些方法往往忽略了一个关键点：数据元素之间可能存在内在相关性。如何挖掘并利用这种相关性，就是我们的研究动机。

我们借鉴了向量数据库中的思想，将向量划分为更小的组（Group），通过挖掘组内元素的相关性来实现更高效的压缩。相比于单元素量化，向量量化的优势在于其极限压缩能力更强——行业共识是，单元素量化做到4比特已接近极限，而向量量化有望做到2-3比特且保持可用性，关键在于量化算法的改进。

问：在这项合作中，双方团队是如何分工的？

冷静文：上海交大团队主要负责核心想法的提出与验证。后续的实验环境搭建、模型测试等具体实现工作，则与魔形智能团队紧密合作完成。我们双方有校企合作项目，共同致力于大模型基础设施的前沿研究。

问：您过去的系统研究经验，对当前的LLM研究有何借鉴意义？

冷静文：系统优化的许多思路可以直接指导大模型设计。一个重要的方向是，识别当前系统的瓶颈，并结合模型特点进行联合设计。我们的工作就是深入分析了大模型参数或KV缓存中，不同细粒度部分之间的内在关联，利用其相关性实现极致压缩。未来，显存容量、通信带宽都可能成为瓶颈，如何让模型更好地适配系统，是值得持续探索的。之前引起热议的NSA（稀疏注意力）工作，也是这个方向的典型例子。

问：NSA工作有哪些亮点和价值？

冷静文：稀疏的重要性早已被认识，但传统方法多基于静态规则进行剪枝。NSA的价值在于，它将稀疏设计原生地嵌入到模型架构中，类似于MoE（混合专家）的思路。更重要的是，它是首个能在注意力机制上实现端到端学习的方案。这启示我们，未来的模型设计需要将“效率优先”原则更深地融入架构之中。

问：VQ-LLM如何具体解决推理延迟问题？过程中遇到哪些难点？

冷静文：整体而言，从动机验证到系统实现，这项工作的推进相对顺利。我们首先聚焦于一个核心问题：向量量化是否真的比单元素量化更有价值？在算法层面找到佐证并通过实验取得积极效果后，系统实现是我们的强项，没有遇到特别棘手的难题。最初的挑战主要在于，如何找到将向量量化应用于大模型压缩的有效路径。

问：目前海内外在向量量化方面还有哪些有价值的前沿探索？与你们的方法有何不同？该领域还有哪些优化空间？

冷静文：当前的向量量化研究大致分为两类：一类仅用于压缩，计算时仍需恢复为原始格式；另一类则直接基于压缩后的格式进行计算。我们的工作目前属于前者。未来的优化空间很大，例如实现压缩与计算的联合优化，甚至将量化技术与训练过程更紧密地集成起来，而不仅仅局限于推理阶段。

问：这项研究是否已从学术成果走向行业落地？您如何看待学术界与工业界在前沿研究上的差距？

冷静文：论文中的相关技术已经在合作方的产品中进行落地探索。不过，学术界和工业界的定位本就不同。学术界更关注前瞻性探索，其研究往往比行业落地早数年。理想的状态是，现在研究的东西，可能在五年后被证明极具价值。学术研究应该以此为目标，而非仅仅追逐当下的热点。

DeepSeek带来的思考

问：像DeepSeek这样的671B MoE模型，量化起来有何特殊难点？如何平衡其稀疏性与推理效率？你们的工作对此有何参考价值？

冷静文：目前最大的难点在于，运行如此庞大的模型对硬件要求极高，量化过程本身也非常耗时。因此，我们通常会在较小的模型上验证方法的有效性。

对于MoE模型，一个关键点在于其专家（Expert）并非每次推理都被激活。现有的量化方法往往需要在专家被激活、获得中间结果后才能进行压缩。因此，如何针对这种动态激活模式设计量化算法，是需要重点考虑的调整因素。除此之外，DeepSeek模型在其他方面的量化挑战与其他大模型并无本质区别。

问：您如何评价“软硬一体协同”对于训练大模型的意义？模型是否需要为现有硬件架构做出调整？

冷静文：在模型架构的高层设计上，为特定硬件调整的痕迹并不明显。但在底层，软硬件协同的思考是存在的。例如，注意力机制是目前挖掘信息的主流方式，但其计算方式（逐个元素做内积）是否最高效？是否存在更高效的方法？我们正在探索基于向量量化的快速注意力计算方式。更进一步，未来或许不需要依赖传统的乘加运算，上海交大此前提出的块状稀疏模型架构，可能就是更高效的方向之一。

问：如何看待MaaS（模型即服务）的商业模式？这似乎只是大厂的游戏，小厂注定难以盈利？

冷静文：参考DeepSeek公布的成本估算，他们展示了实现较低成本的可能性。从历史经验看，任何能够商用的方案最终都必须有利润空间。关键在于，未来的硬件部署形式可能并非当前的GPU集群。例如，采用类似苹果Mac Studio那样拥有超大统一内存的硬件架构，或许能显著降低成本。此外，通过“以存代算”、优化缓存命中率等手段，将模型部署成本压缩到极致，这条路是走得通的。

问：如果小厂能够复现DeepSeek的专家并行（EP）等优化方案，是否就有机会？目前存在哪些难点？

冷静文：专家并行的主要难点在于多GPU间的通信模式复杂。传统的数据并行（DP）、张量并行（TP）有成熟的集合通信库支持，而EP涉及大量点对点通信，通信与计算的重叠优化非常困难。更重要的是，英伟达自身也尚未提供完美的EP解决方案，加之国内缺乏相应的国产生态，导致目前大家在这方面的实践都面临挑战。

问：DeepSeek开源了大量围绕英伟达GPU的代码库，这对你们的研究有何参考价值？

冷静文：在DeepSeek开源的内容中，我比较关注其算子生成部分，这对单GPU的研究有借鉴意义。我们团队在多GPU编程方面也在开展研究，但并非基于GPU的控制流范式。我们聚焦于数据流芯片架构。海外如Cerebras、Tenstorrent也在探索类似路径，但在英伟达GPU唾手可得的市场环境下，它们的接受度受到限制。而从国内视角看，GPU架构红利已释放多年，未来芯片架构与编程范式的创新势在必行，数据流是我们选择的一个解题思路。

国产芯片的机会点

问：你们在数据流芯片方面做了哪些工作？解决了哪些业内难点？

冷静文：我们的研究对标的是GPU的CUDA生态。CUDA建立在单指令多线程（SIMT）的抽象模型之上，生态繁荣。我们则从抽象机设计入手，提出了一种基于代码块、细粒度的数据流抽象模型，同时力求兼容CUDA的编程抽象。我们试图回答的问题是：未来的AI芯片，其底层抽象模型未必需要模仿英伟达GPU，采用代码块数据流的方式或许是一条可行的新路径。

问：数据流芯片设计的主要难点是什么？

冷静文：制造出数据流芯片本身并不算最难的。真正的挑战在于，如何构建一个能与CUDA生态媲美的软件栈。我们的方法是从底层抽象机开始，构建编程模型，进而开发相应的编程语言和工具。目前来看，数据流编程的学习门槛较高，其思维方式与传统控制流的冯·诺依曼架构截然不同。因此，如何降低开发者的学习成本，是当前最需要思考的问题。

问：大规模集群优化是另一个系统难题，您如何看待其中的挑战？你们有相关研究吗？

冷静文：目前，万卡、千卡级别的集群在容错、高效的4D并行等方面已经研究得比较深入。集群演进的一个明显趋势是，GPU高速互联的规模正在变得越来越大。英伟达的GB200 NVL72/NVL144方案，就是在一个高速互联域内集成数十甚至上百个GPU，形成“超节点”。这类方案目前国内难以获取。国内现有生态多基于单台服务器（如一机八卡）进行Scale-out扩展，但英伟达的技术路线更偏向于打造大规模集成节点。这种超节点级别的优化，未来会变得越来越重要。

问：如何看待华&为云发布的CloudMatrix 384超节点？它有何亮点和意义？

冷静文：华&为能够几乎与英伟达NVL72同步发布类似产品，这本身就说明国内的技术思考是走在国际前沿的。其技术亮点在于互联结构——通过统一的互联架构整合碎片化的通信，这对编程生态的友好性会有很大提升。当然，我们目前尚未实际使用该超节点进行开发，期待后续能有机会基于它开展更多研究。

问：目前国产芯片在支持FP8等低位宽训练上仍面临困难，从您的观察看，国产芯片的突破进展如何？还有哪些关键难题？

冷静文：国产AI芯片目前主要有两条路线：一类是类CUDA架构，另一类则是以CPU扩展（如CND）的思路。如果只是照搬英伟达的设计，恐怕会永远处于追赶状态。必须要有原创性思考，进行前瞻性布局。历史原因在于，大模型出现前，业界普遍认为算力过剩，缺乏提前堆砌低位宽算力的动力，这导致了当前一代芯片的共性短板。

此外，生态是另一个核心问题。英伟达生态的开放性吸引了大量开发者和学者参与优化。而国产芯片厂商往往更倾向于封闭自己的技术方案，不希望外界了解底层细节。要真正发展起来，硬件是护城河，但开放、繁荣的软件生态同样不可或缺。

问：目前还有哪些亟待解决的系统难题？你们后续的研究重点是什么？

冷静文：系统层面，一个越来越突出的难题是如何支持智能体（Agent）范式。智能体涉及模型的多次调用、工具使用等复杂交互，这对系统设计提出了全新挑战，包括如何高效支持思维链、强化学习搜索等复杂流程。

但我们团队后续的研究重点，可能会更偏向底层硬件。我们将持续聚焦于芯片架构与高速互联，特别是数据流芯片的内部设计，以及超节点级别的高速互联硬件设计。目前，相关硬件设计工作仍在推进中。

问：国内芯片、系统厂商应如何与模型厂商协同，以推动大模型生态发展？

冷静文：未来的协同可能体现在两个层面。一是面向新型模型架构的协同设计。学术界在MoE、NSA、块状稀疏、记忆体立方等新架构上已有不少进展，但要训练这些模型，需要海量数据和大规模算力，目前学术界难以独立完成。芯片和系统厂商可以提前介入，与模型厂商共同探索这些新架构的硬件适配。二是持续推进模型的小型化与轻量化。模型厂商可以将实际部署中遇到的瓶颈和需求反馈给芯片厂商，从而驱动芯片设计理念的更新，共同推动成本下降。

问：英伟达H20芯片出口受限引发关注。如果连最低端的产品都难以获得，国内会受到什么影响？国产芯片厂商应如何应对？

冷静文：市场对H20的需求，主要源于其CUDA生态和较高的内存带宽，这在大模型推理场景中非常关键。这给国产芯片厂商两点启示：首先，必须高度重视构建统一、开放的软件生态。其次，要着力解决高带宽内存（HBM）的替代或优化方案。例如，是否可以探索利用CXL等互联协议来替代当前的HBM？或者通过3D堆叠技术，在芯片上集成大容量SRAM来缓解对HBM的依赖？这些都是值得思考的方向。

来源:https://www.leiphone.com/category/ai/VQpoLh0y0RSDoUx9.html

上一篇：百度文库AI公测上线自由画布月活用户突破九千万

下一篇：蚂蚁发布两款万亿参数大模型 AI技术实力全面升级