上交大冷静文:AI模型发展需与芯片及系统厂商协同创新
近期,在由IEEE计算机协会主办的HPCA 2025(高性能计算机架构国际研讨会)上,一项来自上海交通大学与AI基础设施初创公司魔形智能的联合研究引起了业界关注。他们发表的论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》,提出了一种名为VQ-LLM的新框架。
这个框架的核心,在于通过两项关键技术——分层代码本缓存和代码本中心计算引擎,成功将大语言模型(LLM)的推理延迟降低了超过50%。其性能表现,也超越了传统同比特宽度的逐元素量化方法。这标志着,向量量化(VQ)这项技术,在追求极致压缩的同时,终于找到了一个能兼顾高精度与高效率的可行部署方案,不再只是纸面上的理论优势。
当前,大模型压缩领域的研究层出不穷,但多数焦点都放在了单元素量化上。向量量化的独特价值在于,它能挖掘数据组内的相关性,从而实现更极致的等效比特压缩。换句话说,在达到相近精度的前提下,向量量化能“压”得更狠。这也是该论文研究的核心出发点。
这项工作的主要负责人,是上海期智研究院PI、上海交通大学计算机科学与工程系教授冷静文。他的研究背景横跨体系结构优化与硬件设计,目前团队的兴趣点聚焦于芯片架构与高速互联,特别是数据流芯片的内部设计以及超节点级别的硬件互联方案。此前,他们已发布过一系列基于数据流和底层算子的优化组件。

针对近期因DeepSeek模型而引发广泛讨论的国产芯片FP8支持问题,冷静文教授指出了背后的历史原因:在大模型浪潮之前,业界普遍认为现有算力已足够,缺乏提前布局低位宽算力的动力,这导致当前一代国产芯片可能普遍面临类似挑战。在他看来,单纯模仿英伟达的设计路径难以实现超越,必须融入原创性思考,这也是其团队探索数据流芯片架构的初衷之一。“GPU的红利期已持续数十年,或许已接近尾声。未来的芯片架构与编程范式该如何设计?我们试图通过数据流的方式寻找答案。”
以下是本次对话的详细内容:
向量量化与大模型压缩
问:可以介绍一下这项与魔形智能合作的论文工作吗?最初的研究动机是什么?
冷静文:我们的出发点很明确:大模型至关重要,但其巨大的计算量和存储消耗也是现实瓶颈。因此,模型压缩成为一个热门方向。目前,许多代表性工作集中在量化上,例如将FP16数据压缩到4比特。然而,这些方法往往忽略了一个关键点:数据元素之间可能存在内在相关性。如何挖掘并利用这种相关性,就是我们的研究动机。
我们借鉴了向量数据库中的思想,将向量划分为更小的组(Group),通过挖掘组内元素的相关性来实现更高效的压缩。相比于单元素量化,向量量化的优势在于其极限压缩能力更强——行业共识是,单元素量化做到4比特已接近极限,而向量量化有望做到2-3比特且保持可用性,关键在于量化算法的改进。
问:在这项合作中,双方团队是如何分工的?
冷静文:上海交大团队主要负责核心想法的提出与验证。后续的实验环境搭建、模型测试等具体实现工作,则与魔形智能团队紧密合作完成。我们双方有校企合作项目,共同致力于大模型基础设施的前沿研究。

问:您过去的系统研究经验,对当前的LLM研究有何借鉴意义?
冷静文:系统优化的许多思路可以直接指导大模型设计。一个重要的方向是,识别当前系统的瓶颈,并结合模型特点进行联合设计。我们的工作就是深入分析了大模型参数或KV缓存中,不同细粒度部分之间的内在关联,利用其相关性实现极致压缩。未来,显存容量、通信带宽都可能成为瓶颈,如何让模型更好地适配系统,是值得持续探索的。之前引起热议的NSA(稀疏注意力)工作,也是这个方向的典型例子。
问:NSA工作有哪些亮点和价值?
冷静文:稀疏的重要性早已被认识,但传统方法多基于静态规则进行剪枝。NSA的价值在于,它将稀疏设计原生地嵌入到模型架构中,类似于MoE(混合专家)的思路。更重要的是,它是首个能在注意力机制上实现端到端学习的方案。这启示我们,未来的模型设计需要将“效率优先”原则更深地融入架构之中。
问:VQ-LLM如何具体解决推理延迟问题?过程中遇到哪些难点?
冷静文:整体而言,从动机验证到系统实现,这项工作的推进相对顺利。我们首先聚焦于一个核心问题:向量量化是否真的比单元素量化更有价值?在算法层面找到佐证并通过实验取得积极效果后,系统实现是我们的强项,没有遇到特别棘手的难题。最初的挑战主要在于,如何找到将向量量化应用于大模型压缩的有效路径。
问:目前海内外在向量量化方面还有哪些有价值的前沿探索?与你们的方法有何不同?该领域还有哪些优化空间?
冷静文:当前的向量量化研究大致分为两类:一类仅用于压缩,计算时仍需恢复为原始格式;另一类则直接基于压缩后的格式进行计算。我们的工作目前属于前者。未来的优化空间很大,例如实现压缩与计算的联合优化,甚至将量化技术与训练过程更紧密地集成起来,而不仅仅局限于推理阶段。
问:这项研究是否已从学术成果走向行业落地?您如何看待学术界与工业界在前沿研究上的差距?
冷静文:论文中的相关技术已经在合作方的产品中进行落地探索。不过,学术界和工业界的定位本就不同。学术界更关注前瞻性探索,其研究往往比行业落地早数年。理想的状态是,现在研究的东西,可能在五年后被证明极具价值。学术研究应该以此为目标,而非仅仅追逐当下的热点。
DeepSeek带来的思考
问:像DeepSeek这样的671B MoE模型,量化起来有何特殊难点?如何平衡其稀疏性与推理效率?你们的工作对此有何参考价值?
冷静文:目前最大的难点在于,运行如此庞大的模型对硬件要求极高,量化过程本身也非常耗时。因此,我们通常会在较小的模型上验证方法的有效性。
对于MoE模型,一个关键点在于其专家(Expert)并非每次推理都被激活。现有的量化方法往往需要在专家被激活、获得中间结果后才能进行压缩。因此,如何针对这种动态激活模式设计量化算法,是需要重点考虑的调整因素。除此之外,DeepSeek模型在其他方面的量化挑战与其他大模型并无本质区别。
问:您如何评价“软硬一体协同”对于训练大模型的意义?模型是否需要为现有硬件架构做出调整?
冷静文:在模型架构的高层设计上,为特定硬件调整的痕迹并不明显。但在底层,软硬件协同的思考是存在的。例如,注意力机制是目前挖掘信息的主流方式,但其计算方式(逐个元素做内积)是否最高效?是否存在更高效的方法?我们正在探索基于向量量化的快速注意力计算方式。更进一步,未来或许不需要依赖传统的乘加运算,上海交大此前提出的块状稀疏模型架构,可能就是更高效的方向之一。
问:如何看待MaaS(模型即服务)的商业模式?这似乎只是大厂的游戏,小厂注定难以盈利?
冷静文:参考DeepSeek公布的成本估算,他们展示了实现较低成本的可能性。从历史经验看,任何能够商用的方案最终都必须有利润空间。关键在于,未来的硬件部署形式可能并非当前的GPU集群。例如,采用类似苹果Mac Studio那样拥有超大统一内存的硬件架构,或许能显著降低成本。此外,通过“以存代算”、优化缓存命中率等手段,将模型部署成本压缩到极致,这条路是走得通的。
问:如果小厂能够复现DeepSeek的专家并行(EP)等优化方案,是否就有机会?目前存在哪些难点?
冷静文:专家并行的主要难点在于多GPU间的通信模式复杂。传统的数据并行(DP)、张量并行(TP)有成熟的集合通信库支持,而EP涉及大量点对点通信,通信与计算的重叠优化非常困难。更重要的是,英伟达自身也尚未提供完美的EP解决方案,加之国内缺乏相应的国产生态,导致目前大家在这方面的实践都面临挑战。
问:DeepSeek开源了大量围绕英伟达GPU的代码库,这对你们的研究有何参考价值?
冷静文:在DeepSeek开源的内容中,我比较关注其算子生成部分,这对单GPU的研究有借鉴意义。我们团队在多GPU编程方面也在开展研究,但并非基于GPU的控制流范式。我们聚焦于数据流芯片架构。海外如Cerebras、Tenstorrent也在探索类似路径,但在英伟达GPU唾手可得的市场环境下,它们的接受度受到限制。而从国内视角看,GPU架构红利已释放多年,未来芯片架构与编程范式的创新势在必行,数据流是我们选择的一个解题思路。
国产芯片的机会点
问:你们在数据流芯片方面做了哪些工作?解决了哪些业内难点?
冷静文:我们的研究对标的是GPU的CUDA生态。CUDA建立在单指令多线程(SIMT)的抽象模型之上,生态繁荣。我们则从抽象机设计入手,提出了一种基于代码块、细粒度的数据流抽象模型,同时力求兼容CUDA的编程抽象。我们试图回答的问题是:未来的AI芯片,其底层抽象模型未必需要模仿英伟达GPU,采用代码块数据流的方式或许是一条可行的新路径。

问:数据流芯片设计的主要难点是什么?
冷静文:制造出数据流芯片本身并不算最难的。真正的挑战在于,如何构建一个能与CUDA生态媲美的软件栈。我们的方法是从底层抽象机开始,构建编程模型,进而开发相应的编程语言和工具。目前来看,数据流编程的学习门槛较高,其思维方式与传统控制流的冯·诺依曼架构截然不同。因此,如何降低开发者的学习成本,是当前最需要思考的问题。
问:大规模集群优化是另一个系统难题,您如何看待其中的挑战?你们有相关研究吗?
冷静文:目前,万卡、千卡级别的集群在容错、高效的4D并行等方面已经研究得比较深入。集群演进的一个明显趋势是,GPU高速互联的规模正在变得越来越大。英伟达的GB200 NVL72/NVL144方案,就是在一个高速互联域内集成数十甚至上百个GPU,形成“超节点”。这类方案目前国内难以获取。国内现有生态多基于单台服务器(如一机八卡)进行Scale-out扩展,但英伟达的技术路线更偏向于打造大规模集成节点。这种超节点级别的优化,未来会变得越来越重要。
问:如何看待华&为云发布的CloudMatrix 384超节点?它有何亮点和意义?
冷静文:华&为能够几乎与英伟达NVL72同步发布类似产品,这本身就说明国内的技术思考是走在国际前沿的。其技术亮点在于互联结构——通过统一的互联架构整合碎片化的通信,这对编程生态的友好性会有很大提升。当然,我们目前尚未实际使用该超节点进行开发,期待后续能有机会基于它开展更多研究。
问:目前国产芯片在支持FP8等低位宽训练上仍面临困难,从您的观察看,国产芯片的突破进展如何?还有哪些关键难题?
冷静文:国产AI芯片目前主要有两条路线:一类是类CUDA架构,另一类则是以CPU扩展(如CND)的思路。如果只是照搬英伟达的设计,恐怕会永远处于追赶状态。必须要有原创性思考,进行前瞻性布局。历史原因在于,大模型出现前,业界普遍认为算力过剩,缺乏提前堆砌低位宽算力的动力,这导致了当前一代芯片的共性短板。
此外,生态是另一个核心问题。英伟达生态的开放性吸引了大量开发者和学者参与优化。而国产芯片厂商往往更倾向于封闭自己的技术方案,不希望外界了解底层细节。要真正发展起来,硬件是护城河,但开放、繁荣的软件生态同样不可或缺。
问:目前还有哪些亟待解决的系统难题?你们后续的研究重点是什么?
冷静文:系统层面,一个越来越突出的难题是如何支持智能体(Agent)范式。智能体涉及模型的多次调用、工具使用等复杂交互,这对系统设计提出了全新挑战,包括如何高效支持思维链、强化学习搜索等复杂流程。
但我们团队后续的研究重点,可能会更偏向底层硬件。我们将持续聚焦于芯片架构与高速互联,特别是数据流芯片的内部设计,以及超节点级别的高速互联硬件设计。目前,相关硬件设计工作仍在推进中。
问:国内芯片、系统厂商应如何与模型厂商协同,以推动大模型生态发展?
冷静文:未来的协同可能体现在两个层面。一是面向新型模型架构的协同设计。学术界在MoE、NSA、块状稀疏、记忆体立方等新架构上已有不少进展,但要训练这些模型,需要海量数据和大规模算力,目前学术界难以独立完成。芯片和系统厂商可以提前介入,与模型厂商共同探索这些新架构的硬件适配。二是持续推进模型的小型化与轻量化。模型厂商可以将实际部署中遇到的瓶颈和需求反馈给芯片厂商,从而驱动芯片设计理念的更新,共同推动成本下降。
问:英伟达H20芯片出口受限引发关注。如果连最低端的产品都难以获得,国内会受到什么影响?国产芯片厂商应如何应对?
冷静文:市场对H20的需求,主要源于其CUDA生态和较高的内存带宽,这在大模型推理场景中非常关键。这给国产芯片厂商两点启示:首先,必须高度重视构建统一、开放的软件生态。其次,要着力解决高带宽内存(HBM)的替代或优化方案。例如,是否可以探索利用CXL等互联协议来替代当前的HBM?或者通过3D堆叠技术,在芯片上集成大容量SRAM来缓解对HBM的依赖?这些都是值得思考的方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
网易CodeWave人工智能开发平台重塑企业智能研发流程
2025年10月14日,网易CodeWave在主题沟通会上重磅发布了“用AI重构研发方式”的战略愿景。会上,一系列全新的智能开发能力正式亮相,旨在实现从需求分析、产品设计到代码开发、部署运维及迭代优化的全流程智能化赋能。这不仅是开发工具的升级,更代表了企业级软件开发范式的深刻演进。作为专注于企业级市
汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索
在刚刚落幕的RL China 2025开幕式上,一场跨越地域的思想对话备受瞩目。伦敦大学学院的汪军教授与图灵奖得主、被誉为“强化学习之父”的Richard Sutton,从学科根基出发,共同探讨了智能的本质与未来方向。这场对话,不仅关乎技术路径,更触及了人工智能研究的初心与使命。 作为强化学习领域的
高德地图AI应跳出传统竞争思维专注创新
高德进军到店业务的消息,近期在行业内引发了广泛关注。昨日,官方正式揭晓答案——并非重启口碑业务,而是推出了“高德扫街榜”。虽然方向已明,但随之而来的疑问却更多了。 过去数月,外卖市场的补贴竞争异常激烈。如今高德加码本地生活服务,是否意味着新一轮补贴大战即将开启?十年前,美团在团购领域脱颖而出,如今阿
Win11任务栏位置自定义设置与文件搜索效率优化指南
微软向Windows预览体验计划成员推送了Win11系统的新一轮更新,重点改进了任务栏的个性化设置与搜索功能。用户现在可以自由将任务栏放置在屏幕的上下左右任意一边,并可选更紧凑的“小任务栏”模式以节省屏幕空间。同时,系统搜索框的逻辑得到优化,在用户查找内容时,会优先显示高度匹配的本地文件和应用程序,
开发者如何抓住GDC千亿商机与财富机遇
人工智能创业者Steven回顾艰辛历程,从技术理想转向现实挑战,面临融资与团队生存压力。全球开发者先锋大会汇聚顶尖投资机构,提供项目路演与资本对接平台,成为其寻求突破的关键机遇。大会旨在探索大模型产业化落地,推动商业闭环,助力开发者实现价值。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

