高通新架构实现AI深度思考：推理更智能且大幅节省内存资源

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

高通新架构实现AI深度思考：推理更智能且大幅节省内存资源

热心网友时间：2026-05-18

转载

这项由高通AI研究院（Qualcomm AI Research）主导的创新研究于2026年5月正式发布，论文预印本编号为arXiv:2605.07721。

高通AI研究院让AI

研究背景：当AI越想越费内存，我们该怎么办

设想一下，手机导航应用会在出发前规划好整条路线，而一位真正智慧的向导则会边走边思考，遇到路障时灵活应变，反复权衡哪条替代路线最省时。这正是当前人工智能大模型发展的核心趋势——从“一次性输出答案”迈向“迭代推演、深度思考”。这种反复推演的能力，被学界定义为“推理能力”，而它带来的直接挑战，便是急剧攀升的内存消耗。

高通AI研究院的团队敏锐地识别出一个关键瓶颈：当AI模型启动“循环思考”模式时，内存占用正在悄然膨胀。他们提出了一种突破性的新架构——记忆高效循环Transformer（Memory-Efficient Looped Transformer，简称MELT），旨在精准解决这一难题。其核心目标非常明确：在完整保留模型强大推理能力的前提下，实现内存消耗的恒定化，无论模型进行多少轮深度思考。

一、循环思考的代价：为什么AI越聪明越耗内存

要理解MELT架构的价值，首先需要厘清“循环Transformer”（Looped Transformer）的工作原理。标准AI模型如同流水线上的固定工位，输入数据经过预设层数的处理，直接生成输出。而循环Transformer则像一位反复审阅稿件的编辑——将同一份稿件（即当前的思维状态）多次交予同一批审稿人处理，每轮审阅后传递至下一环节，直至达到满意的质量。这种“对同一内容进行多轮处理”的机制，使得模型能够在参数规模不变的情况下，显著提升处理复杂问题的性能。

这一方向的代表性工作是名为Ouro的模型（亦被称为LoopLM）。研究表明，Ouro这类循环模型的性能可以媲美甚至超越参数量为其两倍的普通模型——换言之，通过“多思考几轮”，一个小型模型能够战胜一个大型模型。

然而，这种“多轮思考”策略存在一个显著的缺陷。AI在处理文本序列时，需要将已处理过的内容存储于一种称为“KV缓存”（Key-Value Cache，键值缓存）的结构中，以供后续参考。你可以将其理解为AI的“记忆便签”，每阅读一个词，就在便签上记录一条信息。

在标准模型中，每个词语仅需记录一条便签。但在循环模型中，同一个词语每循环一次就要新增一条便签，循环10次便产生10条，循环20次则达到20条。这导致内存消耗随着思考轮数呈线性增长。例如，在生成32000个词的内容时，Ouro模型需要约28GB的内存，而规模相近的标准模型仅需约7GB。这种数量级的差距，在实际部署与应用中往往是无法接受的。

二、MELT的核心思路：便签无需累积，动态更新即可

高通团队提出的解决方案，其核心理念可以通过一个生动的场景来理解。假设你是一名侦探，正在反复核查一份关键证词。传统做法是每次重读后都使用一张新便签纸，写下最新的理解，导致桌面上堆积如山。而MELT的策略是：只使用一张核心便签纸，每次重新分析后，擦除部分旧内容，写入更新、更深入的认识。无论反复推敲多少遍，这张便签纸始终只有一张。

具体而言，MELT为每一层神经网络维护一个“潜在状态”（latent state），即那张可被持续更新的核心便签。每次循环时，模型并非追加新记录，而是通过一个可学习的“门控机制”（gating mechanism）来决策：旧有理解应保留多少，新产生的认知应写入多少。这个门控机制如同一个智能调节滑块——完全向左，意味着完全保留旧认知；完全向右，代表用新认知彻底替换旧认知；停留在中间，则按特定比例融合新旧信息。

这种设计带来了根本性的内存效率提升。Ouro模型的KV缓存大小与“词数×循环次数”成正比，而MELT的KV缓存大小仅与词数成正比，与循环次数完全无关。这意味着无论模型循环思考4次还是40次，其内存占用始终保持不变。

从数学形式上看，其更新规则可表述为：新状态 = 门控值 × 上一时刻潜在状态 + (1 - 门控值) × 当前输入状态。门控值本身由当前输入和上一个潜在状态共同计算得出，并且每个维度都拥有独立的门控值（即元素级门控），而非所有维度共享一个全局值。这种精细化的设计使得模型能够针对不同类型的信息采取差异化的保留与更新策略。

更新后的潜在状态，会通过两个训练得到的投影矩阵（分别称为WK和WV）转化为注意力机制所需的“键”和“值”，并写入当前词语对应的缓存位置——执行的是替换操作，而非追加操作。

三、简单方案的失效：为何不能直接“只保留最后一次”结果

在构思MELT之前，研究团队也评估过一系列更简单的替代方案：例如直接仅保留最后一轮循环产生的KV缓存，或取所有轮次结果的平均值，抑或采用指数移动平均（EMA）策略。他们将这些策略直接应用于Ouro模型，测试了四种变体：仅保留最后一轮缓存（区分是否保留提示词缓存）、仅保留第一轮缓存（同样区分两种情况）。

结果令人震惊——这四种策略在多项推理基准测试上的得分全部为零。并非表现不佳，而是完全失效。深入分析表明，这种失效并非随机错误，而是一种“误差累积漂移”现象：在靠近初始提示词的位置，缓存替换引入的误差尚不明显；但随着生成文本越来越长、越来越偏离原始上下文，错误会不断叠加放大。一个典型的失败案例是：模型起初还能认真推导数学问题，随后思路逐渐混乱，最终输出完全是无意义的重复字符。这好比侦探在离开案发现场太远后，完全遗忘了最初的关键线索，开始进行毫无根据的臆测。

这证明，简单地共享或复用缓存并不可行。必须通过专门的训练，让模型学会如何在单张“便签纸”上高效地整合与迭代信息，这正是MELT中可学习门控机制的核心价值所在。

四、平滑的架构迁移：两阶段训练法实现知识传承

MELT的架构改动相当剧烈——从向缓存“追加”内容转变为“覆盖更新”，同时还引入了全新的门控参数。若直接使用新架构从零开始训练，成本极高。高通团队的策略是：从一个已训练好的Ouro模型出发，通过一套精心设计的两阶段过渡流程，让MELT“继承”Ouro的知识体系，同时平稳适应新的架构范式。

第一阶段：分块训练与插值过渡

MELT存在一个增加训练复杂度的特性：由于每个词的KV缓存依赖于前一个词处理完成后的潜在状态，因此无法像标准模型那样对整个序列进行完全并行计算。这类似于一条装配线，后续工位必须等待前序工位完工才能开始作业。

为了在保证训练质量的同时维持可接受的训练速度，团队提出了“分块训练”（chunk-wise training）策略：将长序列切割为若干片段（实验中每段500个词），同一片段内部进行并行计算，不同片段之间则按顺序传递状态。块尺寸越小，训练过程越接近真实推理行为，但速度越慢；块尺寸越大，训练越快，但与推理时的行为差异也越大。500个词的块大小是实验中寻找到的较优平衡点。

然而，即便采用分块训练，另一个挑战依然存在：MELT的架构改变过于剧烈，直接从Ouro的权重初始化并开始训练，会导致模型初期行为类似于一个未经训练的网络。为了实现更平滑的过渡，团队引入了“插值过渡”（interpolated transition）机制：在训练初期，同时计算两套KV缓存——一套严格遵循Ouro的原始规则，另一套则按照MELT的新规则。实际使用的缓存是这两套缓存的加权混合，混合系数α从0线性增长至1，耗时500个训练步。在初始时刻，完全使用Ouro的缓存（此时模型行为等同于Ouro）；随着训练推进，MELT缓存的权重逐渐增加，最终完全切换至MELT的行为模式。

在第一阶段，还额外引入了知识蒸馏（Knowledge Distillation）技术：以原始Ouro模型作为“教师”，要求MELT在每一个循环步骤的输出都尽可能接近教师的对应输出。这种密集的监督信号有助于模型更快、更稳定地收敛。

第二阶段：注意力对齐蒸馏

当混合系数α达到1后，MELT已完全在其自身架构下运行。但实验发现，若在此阶段不加约束地继续训练，模型会逐渐“遗忘”Ouro的推理风格，性能开始下滑。这好比一名学生在临近毕业时失去了导师的指导，开始偏离正轨。

为防止这种性能漂移，第二阶段引入了“注意力对齐蒸馏”（attention-aligned distillation）：将Ouro模型完全冻结，作为固定的教师模型。要求MELT在每一层、每一个循环步骤的注意力机制之后所产生的“中间表示”，都必须尽量贴近教师在相同位置产生的中间表示。这个额外的对齐损失项由一个超参数β（设置为0.1）控制其强度，与知识蒸馏损失共同参与优化。

第二阶段训练了300步，消耗了9600万个词的数据。整个两阶段训练总计处理约2.56亿词，在8块H100 GPU（每块80GB显存）上运行了130小时，总计消耗1040 GPU小时。

五、性能与效率权衡：节省了多少内存，保留了多强性能

研究团队将MELT-1.6B与多个基线模型进行了系统对比。对比对象包括其“前身”——来自Ouro的1.4B参数版本，以及同等规模的普通非循环模型：Qwen3-1.7B、Gemma4-E2B、Qwen3.5-2B和DeepSeek-R1-1.5B。评测覆盖了10个权威基准测试，涵盖AIME24、AIME25、AIME26、AMC23、MATH-500、OlympiadBench等数学推理任务，以及GPQA、HLE、MMLU-Red、HumanEval等通用推理与代码生成任务。所有评测均使用最多32000个词的生成长度，温度参数设为1.0，top-p采样参数为0.7。

内存效率方面，数据对比非常直观。从vLLM工具中提取的精确数据显示，Ouro模型每生成一个词需要0.786MB的KV缓存空间，而MELT仅需0.197MB，减少了整整四倍。生成完整的32000词序列时，Ouro的KV缓存占用约25GB，加上模型本身参数约2.9GB，总计接近28GB。MELT的KV缓存仅占用约6.3GB，总计约9.5GB，减少了约2.95倍。相比之下，Qwen3-1.7B总计约7.1GB，MELT比Qwen3多出约2.5GB，这个差距主要源于Qwen3采用了多查询注意力（MQA，一种通过共享键值来进一步压缩缓存的技术），而MELT在当前版本中尚未集成此项优化。

推理性能方面，MELT与Ouro相比存在一定差距，但差距并不悬殊。以AIME24为例，Ouro的pass@1（单次提交即答对的概率）为50.2%，MELT为46.7%；AIME25分别为36.7%和33.3%；AIME26分别为44.0%和41.0%。在数学类测试的综合平均pass@1得分上，Ouro为62.3分，MELT为59.9分，相差不到3分。在通用推理类测试上，MELT反而以50.1分的平均分超过了Ouro的48.6分，其中在HumanEval代码测试中，MELT以81.7%的通过率显著领先于Ouro的76.8%。

与普通非循环模型相比，MELT的优势更为突出。在数学综合平均pass@1得分上，Qwen3-1.7B为56.9分，Gemma4-E2B为56.0分，Qwen3.5-2B仅为40.7分，DeepSeek-R1-1.5B为46.9分，而MELT以59.9分全面领先。在通用推理方面，MELT的50.1分同样超过了Qwen3的45.9分和Gemma4的45.5分。这些结果表明，MELT在与普通模型内存占用相近的条件下，其推理能力显著超越了同等规模的普通模型。

六、门控机制的关键性：为何简单规则无法替代

研究团队专门进行了一组消融实验，以验证元素级门控机制是否确有必要，还是更简单的替代方案也能达到类似效果。他们设计了四种替代方案，均在第一阶段训练结束后进行性能比较。

第一种替代是“均值融合”：将所有循环轮次产生的KV表示取平均值，作为最终的缓存内容。第二种是“指数移动平均”（EMA，衰减因子设为0.2，与训练后观察到的平均门控值相近）：每次循环按固定比例混合新旧缓存，这等同于门控值固定为0.2的特殊情况。第三种是“仅用最后一轮”：完全抛弃之前轮次的信息，只保留最后一轮的缓存，此方案在前述缓存共享实验中是性能最好的简单策略。第四种是“标量门控”：仅使用一个全局标量值（而非每个维度一个）来控制整个潜在状态的保留比例。

实验结果以第一阶段训练后的MELT-1.6B为基准：其在AIME24的pass@1为44.8，AIME25为32.9，AMC23为77.7，MATH-500准确率为92.8。均值融合方案的对应得分分别为29.0、23.3、68.8、83.2，下降幅度显著。EMA方案略好，分别为30.2、21.5、68.6、84.6。仅用最后一轮的方案表现最佳：33.7、24.0、69.7、84.0。标量门控方案则为34.4、23.1、66.9、85.6，与仅用最后一轮方案相近。

所有简单替代方案均显著落后于完整的元素级门控机制，差距在10到16个百分点之间。这表明，允许每个维度独立学习其信息保留比例是至关重要的——不同类型的信息需要以不同的速率和方式随时间演化，一刀切的固定规则无法满足这种复杂需求。

七、组件的不可或缺性：逐步移除导致性能崩塌

除了对门控机制的变体实验，研究团队还对整个训练流程进行了逐步拆解的消融研究。从完整的MELT开始，依次移除各个关键组件并重新训练，以验证每个部分的贡献。

完整的MELT-1.6B在AIME24的pass@1为46.7，pass@10（提交10次至少一次答对的概率）为79.9；AIME25为33.3和61.9；AMC23为80.2和97.8；MATH-500准确率为93.4。

移除第二阶段的注意力对齐蒸馏，退回至仅完成第一阶段的版本，性能明显下降：AIME24降至44.8/78.1，AIME25降至32.9/66.1，AMC23降至77.7/99.3，MATH-500降至92.8。进一步移除第一阶段的插值过渡机制（直接从Ouro切换至MELT，不做平滑过渡），性能再次大幅下滑：AIME24降至35.4/63.7，AIME25降至26.9/57.9，AMC23降至73.0/93.1，MATH-500降至86.6。再移除对所有循环步骤的知识蒸馏，改为纯粹的监督微调（SFT），得分进一步下降：AIME24为35.8/63.9，AIME25为24.4/48.6，AMC23为67.2/95.9，MATH-500为85.2。最后，如果连分块训练也取消，改用完全并行的SFT，结果是灾难性的——所有测试得分全部归零，模型完全失效。

这个逐步拆解的实验清晰地表明，这些组件并非锦上添花，而是缺一不可：分块训练是模型能够运行的基础，知识蒸馏是确保模型收敛的保障，插值过渡是实现平稳迁移的关键，注意力对齐蒸馏则是达到最终高性能的“最后一公里”。

八、现有局限与未来方向：继承自Ouro的挑战与MELT的潜力

研究团队在论文中坦诚地指出了MELT目前存在的局限，其中一部分继承自其基础Ouro模型，另一部分则是MELT自身引入的新问题。

第一个局限是固定的循环次数。目前MELT（与Ouro一样）在推理时使用固定的4次循环，无论问题是简单的“1加1等于几”还是复杂的“证明黎曼猜想”，消耗的计算资源是相同的。理想情况下，模型应具备动态推理深度，简单问题少思考几轮，复杂问题多思考几轮。研究者指出，MELT的恒定内存设计实际上为动态调整循环深度提供了更有利的基础——因为内存不会随循环次数增长，增加循环次数不会带来额外的内存代价，这为未来实现“按需深度思考”的版本预留了空间。

第二个局限是缺乏MQA支持。MQA（多查询注意力）是一种让不同注意力头共享键值数据的技术，可以进一步压缩内存占用。Qwen3等模型已采用此项技术，这也是Qwen3的KV缓存比MELT更小的主要原因。研究团队认为，将MQA集成到MELT中是一个极具潜力的方向，有望进一步缩小MELT与普通模型之间的内存差距，甚至可能实现比普通模型更高的内存效率。

第三个局限是训练并行性受限。由于MELT的KV缓存更新依赖于前一个词的处理结果，无法像标准Transformer那样对整个序列进行完全并行处理，这导致其训练速度慢于普通模型。分块训练是当前的折中方案，但开发更高效的并行化策略仍是未来需要攻克的工程难题。

此外，研究团队在复现Ouro原论文的性能时遇到了困难，发现论文中的部分实现细节描述不够具体，导致实验结果与原论文报告存在出入。他们也注意到，Ouro声称的“早退出”机制（允许模型在认为无需更多思考时提前结束循环）在实际代码中并未真正工作——默认配置实际上是禁用早退出的，即使触发了早退出条件，后续循环的计算依然会全部执行。研究者分析认为，这是由于Ouro的KV缓存结构使得在不破坏自回归一致性的前提下难以实现真正的早退出，而MELT的恒定内存设计恰好不受此限制。

总结与展望

归根结底，MELT解决的是一个切实的工程瓶颈：让AI模型能够“思考得更深入”，而无需“消耗更多内存”。通过将“每思考一轮就新增一张便签”的模式，转变为“持续更新同一张核心便签”，MELT成功地将Ouro那套强大的循环推理能力，移植到了一个与普通模型相当的内存预算之内。研究者仅通过新增不到3亿参数的门控组件、使用约2.56亿词的训练数据、消耗1040个GPU小时的主训练，就完成了这次关键的架构转换，并在10个测试基准上全面超越了同等规模的普通模型。

这项研究对普通用户的意义在于：当未来此类技术集成到手机、平板或边缘计算设备时，有限的内存将不再是阻碍AI进行深度推理的硬性门槛。更智能的AI助手，有可能在不升级硬件的前提下出现在你的日常设备中。对研究者而言，MELT展示了一条从现有循环模型出发、通过轻量级后处理训练实现架构升级的可行路径，避免了从零训练的巨大成本，这套平滑过渡方法本身也具有独立的参考价值。

感兴趣的读者可通过arXiv编号2605.07721查阅完整论文，文中包含了所有数学推导、完整的超参数设置以及更详尽的实验细节。

Q&A

Q1：MELT和普通大语言模型相比，推理能力强在哪里？

A：MELT通过循环Transformer架构，使模型能够对同一输入进行多轮迭代处理，相当于“反复推敲”。实验数据显示，MELT-1.6B在数学推理综合得分上以59.9分超越了Qwen3-1.7B的56.9分、Gemma4-E2B的56.0分和DeepSeek-R1-1.5B的46.9分。同时，其总内存占用约9.5GB，与这些普通模型的7~9GB处于同一量级，但比其前身循环模型Ouro的28GB减少了近三倍，实现了性能与效率的更好平衡。

Q2：MELT的门控机制具体是怎么工作的？

A：门控机制本质上是一个可学习的“信息混合比例控制器”，对潜在状态的每个维度进行独立调控。每次循环时，模型会计算一个介于0到1之间的门控值，用以决定旧状态保留多少、新输入信息写入多少。其更新公式为：新状态 = 门控值 × 旧状态 + (1 - 门控值) × 新输入。这个门控值本身由当前输入和上一个状态共同计算得出，通过训练学会在不同上下文情境下灵活调整。实验证明，这种可学习的、细粒度的门控策略，其效果显著优于固定比例的指数移动平均或简单的取平均操作。

Q3：MELT训练为什么必须用分块训练，直接并行不行吗？

A：不行，这是由MELT的架构特性决定的。MELT的KV缓存更新存在严格的顺序依赖：第N+1个词的缓存计算，必须等待第N个词处理完成后才能进行。而标准Transformer的KV缓存仅依赖于当前层的激活值，因此可以实现完全并行计算。如果强行忽略这种依赖关系，采用完全并行的方式训练MELT，实验结果显示所有测试得分归零，模型完全失效。分块训练通过在块内部进行并行计算、在块之间顺序传递状态的方式，在训练效率与推理行为一致性之间找到了可行的平衡点。

来源:https://www.techwalker.com/2026/0518/3187255.shtml

上一篇：谷歌Veo 4视频生成模型泄露详解9秒演示效果惊艳

下一篇：太浩湖能源危机：AI产业推高电价冲击硅谷后花园