DeepSeek V4模型的主要不足与未来改进方向

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

DeepSeek V4模型的主要不足与未来改进方向

热心网友时间：2026-05-20

转载

作者：henry 发自凹非寺

量子位 | 公众号 QbitAI

仔细研读DeepSeek-V4的技术报告，其中提及了mHC、CSA、HCA、Muon、FP4等一系列前沿技术名词。

然而，报告中却唯独缺少了一个备受瞩目的名字：Engram。

这项关键技术究竟去了哪里？

这一话题迅速成为AI技术社区讨论的焦点。毕竟，Engram在今年1月由深度求索（DeepSeek）与北京大学联合开源时，其核心使命就是解决大语言模型的记忆效率瓶颈。自论文在arXiv上发布以来，围绕它的探讨就从未停止。

业界对它的期待，不仅因为它是V4可能的技术铺垫，更在于它提出的革命性理念：对于“伦敦是英国首都”这类事实性知识，模型无需再动用整个深层神经网络进行复杂计算，而是可以直接通过查询获取。

这种设计不仅能显著节省宝贵的GPU显存，更能将深层网络的强大算力解放出来，专注于处理需要复杂逻辑链的推理任务。

正因如此，自一月初论文发表后，业内普遍形成了一种共识：Engram极有可能成为DeepSeek V4模型架构的核心组件。所有人都在等待它在V4中的正式亮相。

以至于V4技术论文一经发布，许多研究者的第一反应就是按下Ctrl+F，在全文搜索“Engram”这个关键词——但结果令人意外，它并未出现。

这种预期与现实的落差，让不少密切关注的技术爱好者感到，缺少了Engram的V4，其技术图谱似乎留下了一处引人遐想的空白。

可以说，Engram的缺席，构成了DeepSeek-V4发布后留给外界最大的一个技术悬念。

然而，故事并未就此画上句号。Engram并未消失，在随后的三个月里，它的技术思想以另一种方式持续演进——至少有三篇重要的后续研究论文相继涌现：

CXL内存池化版本： 研究如何将Engram嵌入多机共享的CXL内存池，旨在攻克大模型分布式部署中的存储瓶颈难题。
无冲突热层实验： 对Engram的多头哈希机制进行了严谨的实证检验，结果推翻了一些看似合理的直觉优化方案。
视觉Tiny Engram： AutoArk团队成功将文本领域的Engram思想迁移至视觉模态，显著拓展了其应用边界。

因此，尽管V4最终没有集成Engram，但其设计理念、探索路径以及后续的衍生应用，已经悄然铺开，为下一代大模型架构的演进埋下了重要的伏笔。

Engram技术详解：它到底是什么？

让我们将时间回溯到2026年1月12日。

当天，DeepSeek与北京大学联合发布了一篇长达33页的论文《Conditional Memory via Scalable Lookup》。论文的第一作者是Cheng Xin，一位曾参与DeepSeek-V3研究的北大博士生。而最后一位作者，正是深度求索的创始人梁文锋。

用一句话概括，Engram是一个为Transformer大模型架构设计的原生知识查找表模块。其核心思想非常直接：对于能够直接查询的静态知识，就无需消耗昂贵的计算资源去动态推导。

研究团队洞察到一个关键问题：现代语言模型的训练实际上混合了两种性质不同的任务。一种是需要深度动态计算的组合式逻辑推理，另一种则是对海量静态事实知识的检索与调用。

传统Transformer架构的症结在于，它将这两类任务混杂在同一套计算流程中处理。当模型需要识别一个特定实体时，不得不消耗多层注意力机制和前馈网络的资源，像拼图一样逐层拼凑特征。

论文中举了一个生动的例子：“Diana, Princess of Wales”（戴安娜王妃）。模型需要经过整整6层网络计算才能完成准确识别。前几层还在解析“Wales是英国的一个地区”、“Princess of Wales是某种贵族头衔”这些中间概念，直到最后一层才最终确认：这是指戴安娜王妃本人。

这种“用昂贵的运行时计算去重建一个本可静态存储的查找表”的工作模式，严重挤占了本应用于高级推理任务的算力资源。

对此，Engram提出的解决方案异常清晰：既然经典的N-gram语言模型就能以O(1)的时间复杂度高效捕获这类局部词汇依赖，为何不将这种能力直接嵌入到现代Transformer中？

打个比方，就像学生解答数学题，该用的公式不必每次从头推导，直接查表代入即可。而之前的Transformer模型缺乏这张“公式表”，每道题都得从最基础的公理开始推演。Engram，就等于为模型配备了这样一张高效的知识查询表。

在具体实现上，Engram模块被插入到Transformer的第2层与第15层之间。每个位置的输入会触发一次高效的哈希查找，将当前token与前几个token组成的N-gram序列映射到一个巨大的嵌入向量表中，直接取出对应的语义向量。

一个精巧的门控（Gating）机制确保了查表内容的准确性：当检索到的内容与当前上下文语义不匹配时，该机制会自动屏蔽输出。例如，“张”是一个常见姓氏，但“张仲景”三个字组合在一起，就构成了一个固定的历史人物实体，门控机制负责精准识别这种细微的语义差别。

Engram的技术定位，是区别于MoE（混合专家）的另一条模型稀疏化路径。MoE实现的是计算的稀疏化，即只激活部分专家网络。而Engram实现的是存储的稀疏化，即只查询部分关键记忆条目。两者在架构上互补，可以并行不悖。

论文中最核心的实验之一，是在固定模型总参数量和每token激活参数量的严格前提下，让MoE专家和Engram记忆模块“竞争”参数预算，实验结果呈现出一条清晰的U形曲线。

实验数据表明，纯MoE架构并非最优解。当将大约20%-25%的稀疏参数分配给Engram记忆模块时，模型的整体损失函数达到最低点，性能最优。

依据这条优化曲线指导，研究团队将Engram扩展至270亿参数规模进行验证。模型激活参数为38亿，训练数据达2620亿tokens，与同规模的MoE-27B基线模型严格对齐。

结果令人印象深刻：在知识密集型任务（如MMLU、CMMLU）上的提升符合预期，但在通用推理和代码数学任务（如BBH、ARC-Challenge、HumanEval、MATH）上的提升幅度超出了预期。尤其在长上下文理解场景下，效果更为显著，Multi-Query NIAH指标从84.2%大幅跃升至97.0%。

那么，一个专注于记忆的模块为何能反过来提升模型的推理能力？

LogitLens和CKA（中心核对齐）分析给出了答案：Engram-27B模型第5层的特征表征，与MoE基线模型第12层的表征最为相似。

这意味着，Engram将模型的早期网络层从“重建静态知识”这类繁重工作中解放了出来。这部分被释放的网络深度，得以重新转向处理更复杂的逻辑推理。因此，Engram不仅是新增了一块记忆存储，它实质上变相加深了神经网络的有效推理深度。

在工程实现上，论文展示了将一个拥有1000亿条目的巨型Engram表完全放置在主机DRAM中，在H800 GPU上进行推理，对于一个80亿参数的稠密模型，其吞吐量损失仅为2.8%。

其性能秘诀在于Engram索引的确定性——它只取决于输入的token序列，完全可以提前计算。这使得CPU能够异步预取数据，与GPU的计算过程高度重叠进行，极大隐藏了访问延迟。

可以说，这个模块天生就不依赖昂贵且稀缺的HBM（高带宽内存）。然而，当万众期待的V4正式到来时，Engram却未能如期登场。

虽未现身V4，但技术探索仍在继续

尽管原创团队暂时按下了暂停键，但围绕Engram的技术探索之路并未中断。在短短三个月内，至少出现了三项值得关注的后续研究工作。

将Engram嵌入CXL内存池

3月10日，北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文：《Pooling Engram Conditional Memory in Large Language Models using CXL》。

这项研究没有改动Engram的核心算法，而是回答了一个更工程化、更实际的问题：如果Engram真的成为下一代大模型的标配组件，它的海量“记忆”应该存放在哪里？

论文给出的答案是：CXL（Compute Express Link）内存池。具体架构是，GPU的HBM存放需要频繁访问的计算权重，本地DRAM作为二级缓存，而大规模的CXL共享内存池则作为三级存储。实验搭建了8台服务器共享4TB内存池，通过XConn XC50256交换芯片构建高速拓扑，提供高达512GB/s的聚合带宽。

整套系统被集成进SGLang推理框架，并实现了智能预取与GPU计算的重叠优化。最终测试显示，端到端的推理吞吐量损失小于5%。这相当于将Engram原论文中那句“将1000亿嵌入表卸载到DRAM”的设想，落地成了针对270亿和400亿参数规模大模型的真实系统测试。

结论非常明确：Engram这种具有确定性寻址、可高度预取特性的工作负载，几乎是为CXL（Compute Express Link）这项新兴内存互联技术量身定做的应用场景。