ASPLOS'26丨晶圆级芯片和存算一体结合:中科院提出15万tokens/s晶圆级芯片方案
Ouroboros:大模型推理的革命性突破,晶圆级存算一体架构深度解析
当前,大模型的发展已进入白热化阶段,参数规模从千亿向万亿级别跃进,对底层计算硬件的算力与能效提出了前所未有的挑战。在这场技术竞赛中,一个关键瓶颈日益凸显:数据搬运开销。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在传统的冯·诺依曼架构中,大模型推理过程需要在DRAM、SRAM与计算单元之间频繁搬运数据。这种“数据长途跋涉”不仅导致高延迟,更消耗了系统绝大部分能量。研究表明,数据搬运所耗费的时间和能耗远超实际计算,成为制约大模型推理效率与能效比提升的核心障碍。
如何从根本上破解这一难题?技术界聚焦于两条颠覆性路径:存算一体架构与晶圆级集成技术。
存算一体技术旨在将存储与计算功能深度融合于同一芯片内,实现数据原地处理,彻底消除搬运。而晶圆级集成则更进一步,在整片硅晶圆上构建超大规模系统,通过超高带宽互连形成统一的内存-计算资源池,为下一代AI计算提供全新范式。

近期,中国科学院计算技术研究所研究团队在这一前沿领域取得重大进展。其创新成果——Ouroboros晶圆级存算一体芯片,发表于计算机体系结构顶级会议ASPLOS 2024。该研究首次实现了完全基于SRAM存算单元的晶圆级AI芯片,为大模型推理带来革命性解决方案。
Ouroboros的核心设计理念可概括为:数据原地存储,计算就近执行。该芯片将大模型推理所需的全部数据——包括权重参数、KV缓存及中间激活值——完整存储在片上SRAM中,无需访问外部DRAM。所有计算操作均在数据存储位置原位完成,真正实现了“零数据搬运”的存算一体范式,极大提升了大模型推理速度与能效。

三层精密架构:从晶圆到核心的协同设计
为实现上述目标,Ouroboros采用了创新的三层层次化架构:
1. 晶圆级集成层
顶层为集成高达54GB SRAM的单片晶圆,足以完整容纳大模型的权重、激活值与KV Cache,从根本上消除DRAM访问瓶颈。该晶圆由多个芯粒通过先进stitching技术无缝拼接而成,形成一个可统一调度、协同工作的巨型计算平面。
2. 芯片级组织层
每个芯粒内部由上百个存算核心构成网格网络,核心间通过高带宽链路紧密互联。设计团队将芯粒面积推向光刻极限,以最大化SRAM容量。同时,引入了核心级容错机制,确保大规模芯片的可靠性与鲁棒性。
3. 存算核心微架构层
每个核心内部集成输入/输出缓存、存算阵列、专用函数单元及控制单元。缓存容量经过精心优化,可容纳典型大模型的token数据,极大减少核心间通信。存算阵列通过高效片上网络互联,专用函数单元并行处理softmax等操作,控制单元则负责核心间与核心内的流水线同步调度。
关键挑战:理想架构的现实制约
尽管Ouroboros构建了强大的晶圆级计算平台,但在实际部署大模型时仍面临多重挑战:
第一,SRAM容量限制
尽管集成海量SRAM,但其物理密度仍有限制。面对持续增长的大模型参数规模,如何用有限片上空间存储庞大权重与状态,是亟待解决的核心问题。
第二,巨型阵列调度复杂性
当成千上万个计算单元铺满晶圆,如何高效地将复杂大模型计算图拆解并映射到分布式阵列上,成为复杂的系统工程。涉及存储布局、数据流调度、任务分配等,需要全新的软硬件协同设计思路。
第三,存算协同优化难题
在存算一体架构中,计算与存储深度绑定。存储布局直接制约计算效率,必须对两者进行协同优化,才能最大化系统整体性能,这显著增加了设计复杂度。

软硬协同:解锁晶圆级潜力的核心策略
为充分发挥晶圆级架构潜力,研究团队开发了端到端的大模型推理框架。该框架从模型流水线切分开始,进行精细化调整,旨在最大化存算资源利用率。
团队创新设计了权重映射策略,结合硬件资源分配与分层映射方法,最小化不必要的数据传输。针对大模型推理关键的KV Cache,框架设计了分布式动态KV缓存管理方案及配套硬件支持,将片上缓存空间利用率提升至新高度。


性能实测:数据见证飞跃
通过芯片与系统的协同设计,Ouroboros成功实现了“计算原地化”,并在性能与能效上取得突破性成果:
与当前顶尖系统相比,Ouroboros的平均吞吐量提升4.1倍,平均能效提升4.2倍。
在13B参数模型上表现尤为突出:吞吐量最高提升9.1倍,能效比提升达17倍。
具体而言,单晶圆推理Llama 13B模型、在WikiText‑2数据集测试中,系统吞吐量稳定达到15万tokens/秒。这一结果充分验证了Ouroboros在真实大模型推理场景下的卓越性能。
上述成果不仅证明了其在性能与能效上的双重优势,更为“存算一体”与“晶圆级集成”技术路线的可行性提供了坚实证据。这项研究标志着,在构建下一代高效、低功耗大模型推理系统的道路上,我们迈出了关键一步。
论文链接:https://dl.acm.org/doi/10.1145/3779212.3790197
作者介绍:本文作者来自中国科学院计算技术研究所智能计算机研究中心和泛在计算系统研究中心物端计算系统实验室,团队长期致力于芯粒集成芯片研究。本文的共同第一作者是刘艺圻和潘煜东,均为计算技术研究所在读博士生。指导老师为中科院计算所王颖研究员、韩银和研究员、王梦迪特别研究助理。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版
说实话,每次看到别人在商务路演时拿出那种设计精良、气质高端的PPT,你是不是也暗自羡慕过?但咱们既不是专业设计师,又抽不出大把时间琢磨排版配色——这种困境我太懂了。好在现在有了Gamma这样的智能平台,它内置的模板系统能让你快速产出专业级PPT。今天我就以最经典的极简黑金风格为例,带你走一遍具体操作
airtag不更新实时位置怎么设置_AirTag位置刷新与实时更新设置方法
不知道你有没有遇到过这种情况:在“查找”App里盯着自己的AirTag,结果发现它的位置好像“卡住”了,几个小时甚至更久都没动过。这事儿确实挺让人着急的。别担心,这通常不是AirTag坏了,而是它的位置更新机制暂时“打了盹儿”。AirTag本身不能联网,它得靠路过的其他Apple设备“帮个忙”,才能
OpenClaw能否成为下一代智能入口
随着2026年初OpenClaw在GitHub上19天内斩获16 5万星标的现象级爆发,“xxClaw”系列产品迅速成为全球AI领域关注的焦点。国内像腾讯、字节、阿里、小米、华&为等科技巨头纷纷入局,推出各自的Claw产品,围绕“智能入口”的争夺战正式打响。 2026年3月的深圳,腾讯大厦楼下排起长
ai保存的时候怎么把源文件设置成不可编辑_Ai导出PDF设置权限密码禁止编辑方法
不知道你有没有遇到过这种情况:辛辛苦苦用AI设计工具做好方案,导出成PDF发给客户或同事后,没过多久,就发现自己的排版被改得面目全非,或者内容被轻易复制走了。老实说,这种感觉真的很糟糕。如果你也想保护自己的劳动成果,让导出的PDF文件“只可远观,不可亵玩”——也就是无法被随意编辑、复制或修改,那今天
如何快速用上OpenClaw?这应该是全网使用 OpenClaw 最方便快捷的方式
一键安装,直接开始“养虾” 如果你最近关注过OpenClaw(龙虾),想必已经见过五花八门的安装教程。但真正动手尝试时,很多人会遇到这样的困扰: 需要配置环境、准备API Key、熟悉命令行操作,甚至还要折腾Docker和各类依赖——光是这些准备工作,就足以让不少用户望而却步。 不过现在有个好消息:
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

