当前位置: 首页
科技数码
DeepSeek开源的Engram:仅3%推理损失实现方法解析

DeepSeek开源的Engram:仅3%推理损失实现方法解析

热心网友 时间:2026-01-13
转载

继不久前发布突破性的mHC架构后,DeepSeek再次释放重磅更新。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

1月13日凌晨,DeepSeek在GitHub开源了名为“记忆编码(Engram)”的模块组件。同期,他们与北京大学联合发表了论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,系统阐述了一种新的大模型稀疏化路径:条件存储。


图片来源:GitHub

这篇论文共有十四位作者,DeepSeek创始人兼CEO梁文锋的署名列于最后。值得注意的是,就在1月初,DeepSeek发布的关于mHC架构的论文同样引发了广泛关注,梁文锋的署名也以同样的方式呈现。

这两项研究清晰地体现了DeepSeek长期坚持的技术路线:致力于打破算力成本对模型发展的硬约束,通过底层架构与算法理论的协同创新,探索更具性价比的发展道路。

如果说此前的mHC是提出一种全新的底层计算架构,那么“条件存储”就更像是架构层面的职责重构与分工优化。

根据论文描述,Engram被设计成一个可微分、可训练、并能原生嵌入模型结构的组件。它的核心思路是将那些需要记忆的负载从主干计算中剥离出来,从而避免低效的重复计算。通过一个高速检索模块,模型能够直接调用那些稳定存在且高频出现的知识。

具体来说,Engram首先提供确定性检索。模型基于当前输入及前文形成的特定文本片段,通过哈希映射,直接从一个超大规模静态嵌入表中取出对应的向量表示。这个过程无需依赖复杂的神经网络计算,因此速度更快、路径也更稳定。

之后,Engram会通过一个轻量化的门控机制,由当前层的隐藏状态来判断这段记忆是否真正适合当下的语境,有效避免“查到就用”的生硬植入,保证了响应的灵活性。

简单来说,Engram这套机制既能解决输入端“记得住”的问题,也能优化输出端“说人话”的效果。

DeepSeek还指出,实验表明,相关机制在处理日期、专有名词等固定模式的信息时表现高度活跃,而在自由生成和复杂推理场景下则几乎不介入。这样就在强化记忆功能的同时,有效避免了不合时宜的“幻觉”出现。

在整体架构视角下,DeepSeek将大模型的能力拆解成了三个既相互独立、又彼此协作的维度。

首先是决定逻辑与抽象能力的模型深度,这是模型智能的基石。其次是以MoE为代表的“计算稀疏性”,旨在减少每次前向传播的计算负载。而这第三个维度,正是“存储稀疏性”,也就是Engram所引入的条件记忆。

以往,大模型厂商在开发记忆模块时,往往会担心影响模型主干的计算效率和推理性能。

根据论文,DeepSeek通过U型扩展定律解决了这一平衡问题。在总参数量和算力预算固定的前提下,研究团队系统性调整了MoE与Engram之间的比例,发现将20%到25%的稀疏参数分配给Engram,能达成最优的性能平衡点。

测试数据显示,即便加载了参数规模高达千亿级别的Engram记忆库,模型推理过程中的性能损失也能控制在3%以内。

另据知情人士透露,DeepSeek预计将在今年中国春节前后发布其最新的V4模型。此次的核心突破点主要在于对超长上下文提示词的处理与解析能力,以及对全流程训练中数据模式的理解力的提升。

这意味着,新模型不仅推理性能会大幅提升,在处理复杂任务时将更加得心应手。编程能力也将成为新模型的主打优势之一。内部初步测试结果显示,其表现已经超越了Anthropic当前最强的编程模型Claude。

值得注意的是,Anthropic近期为了守护其在编程能力的优势和入口,已陆续切断Claude Code在第三方平台的接入。1月12日,该公司又放出了Co-work,主打办公场景的自主助手应用落地。该应用能自动帮用户完成制作PPT、整理电子邮件、制订工作计划等各类任务,上手门槛较低。

目前,mHC和Engram在DeepSeek新模型中的具体角色与组合方式尚未完全清晰,但这艘即将到来的旗舰新作,正被市场期待它能再次带来一次“DeepSeek春节冲击波”。

来源:https://www.163.com/dy/article/KJ5SKI8U05118O92.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
智现未来联合晶合集荣获SEMICON China良率提升奖

智现未来联合晶合集荣获SEMICON China良率提升奖

3月26日,在SEMICON China 2026“半导体智能制造-未来工厂”论坛上,一场关于半导体制造AI未来形态的思想碰撞引发行业瞩目。智现未来董事长兼CEO管健博士受邀登台,发表题为《从“+A

时间:2026-03-28 22:58
珠海金湾引进30亿航空整机制造项目,布局载人飞行产业

珠海金湾引进30亿航空整机制造项目,布局载人飞行产业

南都讯 记者李洁琼 3月28日,珠海天际航空科技有限公司在金湾区天章产业园开业。作为珠海低空经济产业的新锐力量,天际航空智能制造基地的投运,标志着金湾区在载人级飞行器制造领域迈出关键一步,为珠海“天

时间:2026-03-28 22:58
神州写真:中国机器人租赁升温,二次开发成关键新赛道

神州写真:中国机器人租赁升温,二次开发成关键新赛道

来源:中国新闻网中新社杭州3月27日电 (鲍梦妮)随着机器人产业发展以及春晚机器人表演等热点带动,今年以来,中国多地机器人租赁业务持续升温。在上海上线的全球首个开放式机器人租赁平台“擎天租”,自去年

时间:2026-03-28 22:58
京东翻新打印机避雷指南:警惕以旧充新三大陷阱

京东翻新打印机避雷指南:警惕以旧充新三大陷阱

大象新闻·大象财富记者 李莉 张迪驰315消费者权益日刚过,广东李女士在某平台购买的“全新”打印机频繁报错,维修无果。她查询最新质保发现,整机标注保修三年,系统却显示剩余保修期不足两年,经售后核实确

时间:2026-03-28 22:58
马斯克母亲分享长城游览视频:赞叹“令人惊叹”

马斯克母亲分享长城游览视频:赞叹“令人惊叹”

来源:九派新闻、环球网版权归原作者所有,如有侵权请及时联系据环球网:美国企业家埃隆·马斯克的母亲梅耶·马斯克3月27日在社交平台X上发帖,分享自己在长城游览的视频。梅耶·马斯克当天在帖子中称,此次旅

时间:2026-03-28 22:58
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程