DeepSeek V4模型的主要不足与未来改进方向
作者:henry 发自 凹非寺
量子位 | 公众号 QbitAI
仔细研读DeepSeek-V4的技术报告,其中提及了mHC、CSA、HCA、Muon、FP4等一系列前沿技术名词。
然而,报告中却唯独缺少了一个备受瞩目的名字:Engram。
这项关键技术究竟去了哪里?
这一话题迅速成为AI技术社区讨论的焦点。毕竟,Engram在今年1月由深度求索(DeepSeek)与北京大学联合开源时,其核心使命就是解决大语言模型的记忆效率瓶颈。自论文在arXiv上发布以来,围绕它的探讨就从未停止。
业界对它的期待,不仅因为它是V4可能的技术铺垫,更在于它提出的革命性理念:对于“伦敦是英国首都”这类事实性知识,模型无需再动用整个深层神经网络进行复杂计算,而是可以直接通过查询获取。
这种设计不仅能显著节省宝贵的GPU显存,更能将深层网络的强大算力解放出来,专注于处理需要复杂逻辑链的推理任务。
正因如此,自一月初论文发表后,业内普遍形成了一种共识:Engram极有可能成为DeepSeek V4模型架构的核心组件。所有人都在等待它在V4中的正式亮相。
以至于V4技术论文一经发布,许多研究者的第一反应就是按下Ctrl+F,在全文搜索“Engram”这个关键词——但结果令人意外,它并未出现。
这种预期与现实的落差,让不少密切关注的技术爱好者感到,缺少了Engram的V4,其技术图谱似乎留下了一处引人遐想的空白。
可以说,Engram的缺席,构成了DeepSeek-V4发布后留给外界最大的一个技术悬念。
然而,故事并未就此画上句号。Engram并未消失,在随后的三个月里,它的技术思想以另一种方式持续演进——至少有三篇重要的后续研究论文相继涌现:
- CXL内存池化版本: 研究如何将Engram嵌入多机共享的CXL内存池,旨在攻克大模型分布式部署中的存储瓶颈难题。
- 无冲突热层实验: 对Engram的多头哈希机制进行了严谨的实证检验,结果推翻了一些看似合理的直觉优化方案。
- 视觉Tiny Engram: AutoArk团队成功将文本领域的Engram思想迁移至视觉模态,显著拓展了其应用边界。
因此,尽管V4最终没有集成Engram,但其设计理念、探索路径以及后续的衍生应用,已经悄然铺开,为下一代大模型架构的演进埋下了重要的伏笔。
Engram技术详解:它到底是什么?
让我们将时间回溯到2026年1月12日。
当天,DeepSeek与北京大学联合发布了一篇长达33页的论文《Conditional Memory via Scalable Lookup》。论文的第一作者是Cheng Xin,一位曾参与DeepSeek-V3研究的北大博士生。而最后一位作者,正是深度求索的创始人梁文锋。
用一句话概括,Engram是一个为Transformer大模型架构设计的原生知识查找表模块。其核心思想非常直接:对于能够直接查询的静态知识,就无需消耗昂贵的计算资源去动态推导。
研究团队洞察到一个关键问题:现代语言模型的训练实际上混合了两种性质不同的任务。一种是需要深度动态计算的组合式逻辑推理,另一种则是对海量静态事实知识的检索与调用。
传统Transformer架构的症结在于,它将这两类任务混杂在同一套计算流程中处理。当模型需要识别一个特定实体时,不得不消耗多层注意力机制和前馈网络的资源,像拼图一样逐层拼凑特征。
论文中举了一个生动的例子:“Diana, Princess of Wales”(戴安娜王妃)。模型需要经过整整6层网络计算才能完成准确识别。前几层还在解析“Wales是英国的一个地区”、“Princess of Wales是某种贵族头衔”这些中间概念,直到最后一层才最终确认:这是指戴安娜王妃本人。
这种“用昂贵的运行时计算去重建一个本可静态存储的查找表”的工作模式,严重挤占了本应用于高级推理任务的算力资源。
对此,Engram提出的解决方案异常清晰:既然经典的N-gram语言模型就能以O(1)的时间复杂度高效捕获这类局部词汇依赖,为何不将这种能力直接嵌入到现代Transformer中?
打个比方,就像学生解答数学题,该用的公式不必每次从头推导,直接查表代入即可。而之前的Transformer模型缺乏这张“公式表”,每道题都得从最基础的公理开始推演。Engram,就等于为模型配备了这样一张高效的知识查询表。
在具体实现上,Engram模块被插入到Transformer的第2层与第15层之间。每个位置的输入会触发一次高效的哈希查找,将当前token与前几个token组成的N-gram序列映射到一个巨大的嵌入向量表中,直接取出对应的语义向量。
一个精巧的门控(Gating)机制确保了查表内容的准确性:当检索到的内容与当前上下文语义不匹配时,该机制会自动屏蔽输出。例如,“张”是一个常见姓氏,但“张仲景”三个字组合在一起,就构成了一个固定的历史人物实体,门控机制负责精准识别这种细微的语义差别。
Engram的技术定位,是区别于MoE(混合专家)的另一条模型稀疏化路径。MoE实现的是计算的稀疏化,即只激活部分专家网络。而Engram实现的是存储的稀疏化,即只查询部分关键记忆条目。两者在架构上互补,可以并行不悖。
论文中最核心的实验之一,是在固定模型总参数量和每token激活参数量的严格前提下,让MoE专家和Engram记忆模块“竞争”参数预算,实验结果呈现出一条清晰的U形曲线。
实验数据表明,纯MoE架构并非最优解。当将大约20%-25%的稀疏参数分配给Engram记忆模块时,模型的整体损失函数达到最低点,性能最优。
依据这条优化曲线指导,研究团队将Engram扩展至270亿参数规模进行验证。模型激活参数为38亿,训练数据达2620亿tokens,与同规模的MoE-27B基线模型严格对齐。
结果令人印象深刻:在知识密集型任务(如MMLU、CMMLU)上的提升符合预期,但在通用推理和代码数学任务(如BBH、ARC-Challenge、HumanEval、MATH)上的提升幅度超出了预期。尤其在长上下文理解场景下,效果更为显著,Multi-Query NIAH指标从84.2%大幅跃升至97.0%。
那么,一个专注于记忆的模块为何能反过来提升模型的推理能力?
LogitLens和CKA(中心核对齐)分析给出了答案:Engram-27B模型第5层的特征表征,与MoE基线模型第12层的表征最为相似。
这意味着,Engram将模型的早期网络层从“重建静态知识”这类繁重工作中解放了出来。这部分被释放的网络深度,得以重新转向处理更复杂的逻辑推理。因此,Engram不仅是新增了一块记忆存储,它实质上变相加深了神经网络的有效推理深度。
在工程实现上,论文展示了将一个拥有1000亿条目的巨型Engram表完全放置在主机DRAM中,在H800 GPU上进行推理,对于一个80亿参数的稠密模型,其吞吐量损失仅为2.8%。
其性能秘诀在于Engram索引的确定性——它只取决于输入的token序列,完全可以提前计算。这使得CPU能够异步预取数据,与GPU的计算过程高度重叠进行,极大隐藏了访问延迟。
可以说,这个模块天生就不依赖昂贵且稀缺的HBM(高带宽内存)。然而,当万众期待的V4正式到来时,Engram却未能如期登场。
虽未现身V4,但技术探索仍在继续
尽管原创团队暂时按下了暂停键,但围绕Engram的技术探索之路并未中断。在短短三个月内,至少出现了三项值得关注的后续研究工作。
将Engram嵌入CXL内存池
3月10日,北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文:《Pooling Engram Conditional Memory in Large Language Models using CXL》。
这项研究没有改动Engram的核心算法,而是回答了一个更工程化、更实际的问题:如果Engram真的成为下一代大模型的标配组件,它的海量“记忆”应该存放在哪里?
论文给出的答案是:CXL(Compute Express Link)内存池。具体架构是,GPU的HBM存放需要频繁访问的计算权重,本地DRAM作为二级缓存,而大规模的CXL共享内存池则作为三级存储。实验搭建了8台服务器共享4TB内存池,通过XConn XC50256交换芯片构建高速拓扑,提供高达512GB/s的聚合带宽。
整套系统被集成进SGLang推理框架,并实现了智能预取与GPU计算的重叠优化。最终测试显示,端到端的推理吞吐量损失小于5%。这相当于将Engram原论文中那句“将1000亿嵌入表卸载到DRAM”的设想,落地成了针对270亿和400亿参数规模大模型的真实系统测试。
结论非常明确:Engram这种具有确定性寻址、可高度预取特性的工作负载,几乎是为CXL(Compute Express Link)这项新兴内存互联技术量身定做的应用场景。
一个反直觉的优化实验
在Engram论文上线十一天后,1月23日,一位名叫Tao Lin的研究者(单作者)发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。
他想验证一个看上去“理所当然”的优化思路:Engram使用的多头哈希查表可能存在哈希冲突,如果采用最小完美哈希函数为高频N-gram构建一个完全无冲突的“热层”(Hot-Tier),模型性能是否会获得显著提升?
他设计了名为“Engram-Nine”的方案,将记忆分为无冲突的“热层”和保留原有多头哈希的“冷层”。
然而,实验结果却反直觉。在严格的等参数控制实验下,无冲突设计并未带来验证损失的稳定提升。进一步的路由分层评估还发现,训练初期高频路径的损失更低,但到了训练后期,低频路径的表现反而超过了高频路径。
一个看似显而易见的优化方向,被一次严谨的对照实验证伪了。这凸显了AI系统优化中实证研究的重要性。
将Engram思想拓展到视觉领域 (AutoArk / TinyEngram)
GitHub上一个名为AutoArk的开源团队开发了“Tiny Engram”项目。
在基于Qwen-3模型完整复现了文本Engram之后,他们做了一项原论文未涉及的重要工作:将Engram的核心思想成功迁移到Stable Diffusion这类视觉生成模型上。
具体方法是将视觉图像分割成块(patch)并经过分层编码,底层编码捕捉纹理细节,中层编码捕捉物体部件,高层编码捕捉整体风格,然后将整套分层编码送入哈希查表进行记忆与检索。
与目前流行的LoRA微调方法相比,达到同等效果时,Engram所需的额外参数量仅为LoRA的15%到30%。更关键的是,当连续注入多个新概念时,LoRA会出现明显的概念遗忘或退化现象,而Engram则表现出了优异的稳定性。
Engram最初是为文本模态设计的。AutoArk的工作相当于撞开了一扇新的大门:凡是能够被离散化、能够被哈希化的数据模态,Engram都有潜力迁移过去,实现高效的条件记忆。
回顾这三个月,在Engram这条技术路径上,原创团队最为沉默,而全球的跟进者们却各自迈出了坚实的一步:一个产学研团队为它解决了多机内存层级扩展问题,一位独立研究者通过实验证伪了一个直觉上的优化方案,一个开源团队则将它的应用边界成功拓展到了视觉领域。
而DeepSeek官方在GitHub上的engram开源仓库,其最后一次代码提交,依然停留在1月14日。
未来展望:One more thing
Engram原论文的摘要结尾,有这样一句充满展望的断言:
我们认为条件记忆(Conditional Memory)将是下一代稀疏大模型不可或缺的建模原语。
看来,这个关于“下一代”的期待与承诺,或许要留给未来的DeepSeek V5来实现了。又或者,会不会在某个V4.1的迭代版本中与我们惊喜相见呢?
参考链接
[1]https://arxiv.org/pdf/2601.07372
[2]https://arxiv.org/pdf/2603.10087
[3]https://arxiv.org/pdf/2601.16531
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek V4模型的主要不足与未来改进方向
DeepSeek-V4未集成Engram模块。该模块由DeepSeek与北京大学联合研发,旨在通过原生知识查表机制分离静态查询与深度推理,以提升效率。相关理念已应用于CXL内存池化以突破存储瓶颈,并经实证检验后成功迁移至视觉模态,为下一代模型发展提供了重要探索路径。
智会心研免费开放高级检索与AI深度分析功能
智会心研宣布其核心AI功能面向个人用户免费开放。该平台提供高级检索、AI伴读、图表分析等工具,帮助用户快速获取并深度分析全球产业技术数据。同时开放多智能体协作,包括专利技术路线和创新方案挖掘智能体,旨在降低使用门槛,辅助研发与决策过程。
Inworld AI实时语音合成模型TTS-2技术解析与应用
在对话式AI领域,让机器“开口说话”早已不是新鲜事,但如何让它说得自然、有感情,甚至能“察言观色”,一直是技术攻坚的难点。最近,Inworld AI推出的Realtime TTS-2模型,似乎在这个方向上迈出了关键一步。它不再仅仅是将文本转为语音,而是试图让AI真正“听懂”对话的弦外之音,并据此做出
OpenAI在美国面临集体诉讼 ChatGPT被指泄露用户隐私给谷歌和Meta
OpenAI在美国加州面临集体诉讼,被指控在ChatGPT中嵌入MetaPixel和GoogleAnalytics等追踪工具,向第三方分享用户隐私数据。据称,泄露信息可能包括邮箱、用户ID及具体查询内容,涉及医疗、法律等敏感对话。尽管行业普遍使用追踪代码,但ChatGPT处理高度私密的对话,引发隐私担忧。法律层面,OpenAI隐私政策已声明可能共享数据用于分
小米米家空气净化器6国补新低 到手价1059元
小米米家空气净化器6近日上市,首发价1399元。叠加多重优惠后,实际到手价可降至约1059元,并享有一年质保与30天价保服务。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

