谷歌论文揭示内存压垮股价，KV缓存缩减6倍内幕

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

谷歌论文揭示内存压垮股价，KV缓存缩减6倍内幕

热心网友时间：2026-03-26

转载

梦晨发自凹非寺量子位 | 公众号 QbitAI

学术会议ICLR，居然和美光和西部数据大跌扯上关系了？

两家存储芯片巨头股价大跌，没有财报暴雷，没有供应链断裂，只是谷歌展示了一篇即将在ICLR 2026正式亮相的论文。

谷歌研究院推出TurboQuant压缩算法，把AI推理过程中最吃内存的KV cache压缩至少6倍，精度零损失

市场的解读简单粗暴，长上下文AI推理以后不需要那么多内存了，利空内存。

网友纷纷表示，这不就是美剧《硅谷》里的Pied Paper？

Pied Piper是2014年开播的HBO经典美剧《硅谷》里的虚构创业公司，核心技术就是一种“近乎无损的极限压缩算法”。

2026年，类似的算法在现实世界居然成真了。

KVCache量化到3 bit

要理解TurboQuant为什么重要，先得理解它解决的是什么问题。

AI大模型推理时处理过的信息会临时存在KV Cache，方便后续快速调用，不用每次从头算起。

问题是随着上下文窗口越来越长，内存消耗急剧膨胀。KV cache正在成为AI推理的核心瓶颈之一。

传统的解决思路是向量量化，把高精度数据压成低精度表示。

但尴尬的是，大部分量化方法本身也需要存储额外的“量化常数”，每个数字要多占1到2个bit。

TurboQuant用两个改动把这个额外开销干到了零。

PolarQuant（极坐标量化）：

不用传统的X、Y、Z坐标描述数据，转而用极坐标”距离+角度”。

谷歌团队发现，转换后角度的分布非常集中且可预测，根本不需要额外存储归一化常数。

就像把“往东走3个路口，往北走4个路口”压缩成”朝37度方向走5个路口”。

信息量不变，描述更紧凑，还省掉了坐标系本身的开销。

QJL（量化JL变换）：

把高维数据投影后压缩成+1或-1的符号位，完全不需要额外内存。TurboQuant用它来消除PolarQuant压缩后残留的微小误差。

两者组合后PolarQuant先用大部分bit容量捕捉数据的主要信息，QJL再用1个bit做残差修正。

最终实现3-bit量化，无需任何训练或微调，精度零损失。

8倍加速，Benchmark全线拉满

谷歌团队在Gemma和Mistral等开源模型上，跑了主流长上下文基准测试，覆盖问答、代码生成、摘要等多种任务。

在“大海捞针”任务上，TurboQuant在所有测试中拿下完美分数，同时KV cache内存占用缩小了至少6倍。

PolarQuant单独使用，精度也几乎无损。

速度提升同样显著。在英伟达H100 GPU上，4-bit TurboQuant计算注意力分数的速度，比32-bit未量化版本快了8倍。

不只是省内存，还更快了。

在向量搜索领域，TurboQuant同样超越了现有最优量化方法的召回率，而且不需要针对具体数据集做调优，也不依赖低效的大码本。

AI内存的DeepSeek时刻？

Cloudflare CEO评价“这是谷歌的DeepSeek时刻”。

他认为DeepSeek证明了用更少的资源也能训出顶尖模型。

TurboQuant的方向类似，用更少的内存，也能跑同样质量的推理。

谷歌表示，TurboQuant除了可以用在Gemini等大模型上，同时还能大幅提升语义搜索的效率，让谷歌级别的万亿级向量索引查询更快、成本更低。

不过TurboQuant目前还只是一个实验室成果，尚未大规模部署。

更关键的是，它只解决推理阶段的内存问题。而AI训练环节完全不受影响。

论文地址：
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

[1]https://x.com/eastdakota/status/2036827179150168182?s=20

来源:https://www.163.com/dy/article/KOUS0VEN0511DSSR.html

上一篇：西门子AI工厂实践：RXD大会揭示算法之外的胜负关键

下一篇：外交部回应：中国政府禁止AI公司Manus两名高管出境

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

iOS 18 Siri迎来AI巨变：单条指令可处理多项任务

【快讯】苹果正在对Siri进行一项关键的功能升级，测试其多指令并行处理能力。这意味着，未来用户或许可以在一句话里，同时吩咐Siri完成好几件事，交互效率有望得到显著提升。目前的Siri，大家应该都熟悉，它基本上只能“听一句，做一件”，比如查完天气再设置提醒。而正在测试的新版本，目标则是让Siri能

时间：2026-05-19 18:55

OpenClaw养虾软件卸载教程与步骤详解

当您需要从计算机中卸载OpenClaw应用程序时，uninstall命令提供了多种灵活的操作模式。默认执行的是“标准卸载”，它会移除核心的程序文件，但会智能地保留您的个人用户数据，确保未来重新安装时可以快速恢复工作环境。您也可以根据不同的清理需求，选择执行更彻底的完全卸载。命令格式与语法卸载命令

时间：2026-05-19 18:55

OpenClaw爆火背后12类安全漏洞 MCP协议安全基准深度解析

近期，开源AI智能体项目如OpenClaw在开发者社区中引发了广泛关注。仅需一句自然语言指令，它便能自动编写代码、检索信息、操作本地文件，甚至接管计算机系统。这种高度自主的行为能力，其核心支撑在于强大的工具调用技术，而模型上下文协议（MCP）正是统一AI工具生态的关键标准化接口。它如同电子设备中的U

时间：2026-05-19 18:55