DeepSeek新论文:下一代大模型如何实现记忆分离
继去年底发布一篇新论文后,1月12日晚,DeepSeek又更新了一篇研究论文,这次聚焦在大规模模型的条件记忆模块。研究团队在结论部分指出,这一技术有望成为下一代稀疏大语言模型中不可或缺的核心架构基础。

此前有消息透露,DeepSeek的下一代大模型V4计划在春节前后推出。结合近期的几项研究进展,业内人士猜测,这篇论文或许已经勾勒出DeepSeek V4的技术演进蓝图。
这篇最新发表的论文由DeepSeek与北京大学合作完成,论文标题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大语言模型稀疏性的新维度》)。在作者名单中,DeepSeek创始人梁文锋的名字同样位列其中。
论文的核心观点在于,当前的大规模模型实际上承担着两种性质截然不同的任务:一种是需要深度动态计算的组合推理,另一种则是静态知识的检索与调用。而现有的Transformer架构本身缺乏原生的知识查找机制,只能通过低效的计算过程来模拟检索行为。例如,当模型需要查询不变的常识或事实时,不得不耗费大量算力重新推导一遍,既浪费计算时间又占用宝贵资源。
为了解决这个问题,DeepSeek研究团队引入了“条件记忆”作为补充的稀疏性维度,并通过名为Engram的条件记忆模块予以实现。该模块旨在优化混合专家计算结构与静态记忆存储之间的权衡关系。
团队还发现了一个U型缩放规律,表明混合专家与条件记忆之间的稀疏容量分配策略,在性能上严格优于纯粹的MoE基准模型。值得注意的是,虽然记忆模块直观上有助于知识检索,但团队在通用推理、代码生成和数学问题求解等领域观察到了更为显著的性能提升。
简单来说,当前的MoE模型在处理动态推理和静态知识时使用的是同一套计算方法,效率较低且算力消耗大。而这篇文章的本质,是为大模型做了一次“分工优化”:让专业的模块处理专业的任务。比如,用专门的“记忆本”来管理固定知识库,而推理模块则专注于复杂逻辑思考,再按最佳比例分配计算资源,最终让模型既反应迅捷,又聪慧过人。
DeepSeek在论文最后明确表示,条件记忆技术将成为下一代稀疏模型不可或缺的建模基础。有行业人士推测,此次提出的条件记忆架构,很可能就是下一代大模型DeepSeek V4所采用的核心技术框架。
此前有报道称,DeepSeek计划于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在代码编程能力上已经超越了市场上其他顶级模型。目前DeepSeek官方尚未对此消息作出任何回应。报道同时提及,具体的发布计划可能会根据实际情况进行相应调整。
自2024年底发布V3模型以来,DeepSeek的下一代旗舰模型一直备受期待。去年底,DeepSeek发布了小幅升级的V3.2版本,并提及该版本在多个基准测试中超越了OpenAI的GPT-5和Google的Gemini 3.0 Pro。业界始终关注着DeepSeek的旗舰模型进展,V4的正式推出,预计将成为行业关注的焦点。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
曹操出行耀出行成为濮院电竞节官方指定高端出行服务商
曹操出行旗下高端品牌“耀出行”成为2026濮院电竞节官方指定高端出行合作伙伴。赛事期间,耀出行为全球选手、解说及嘉宾提供贵宾级出行服务,通过精准路线规划避开拥堵与人群。服务依托极氪009豪华商务车的静音私密座舱,以及双语管家、无缝接驳等专业软性支持,确保贵宾全程尊享体验。
Akamai收购LayerX强化网络安全布局五年完成四项战略并购
Akamai计划收购以色列企业浏览器安全公司LayerX,以扩展其安全边界至浏览器层面,从而有效管控员工使用AI工具等行为。LayerX兼容主流浏览器,兼顾安全与体验。这是Akamai五年内在特拉维夫完成的第四项网络安全收购,旨在整合技术构建覆盖用户、应用和基础设施的AI安全管控体系。
特斯拉德州测试跑道曝光 Roadster新车发布时间引关注
近日,特斯拉得克萨斯州超级工厂的一项新基建进展引发行业关注:厂区外围正在加速建设一条全新的专用车辆测试跑道。从已披露的现场信息来看,这条跑道并非普通厂区道路,其整体规格与布局设计均指向更高阶、更专业的工程验证用途。 根据最新流出的航拍影像,该测试跑道目前已初具规模。其规划清晰,路面铺设与附属设施完备
手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应
你是否注意到,如今道路上手动挡车型的身影正逐渐稀少?在新车市场中,自动挡几乎已成为标准配置。许多人将其简单归结为“手动挡技术落后”,然而背后的原因,远比这更为复杂。 相比之下,自动挡的操作逻辑则直观许多。只需挂入D挡,车辆便能平稳起步与行驶,驾驶者完全无需关注离合器踏板与结合点。尤其在拥堵频繁的城市
苹果自研基带2026年启用 iPhone 18系列将全面搭载
苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

