梁文锋新年发DeepSeek论文，核心技术解析一如其往

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

梁文锋新年发DeepSeek论文，核心技术解析一如其往

热心网友时间：2026-01-01

转载

智东西
作者江宇王涵
编辑心缘

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

智东西1月1日报道，昨日晚间，DeepSeek团队送出一份新年“贺礼”，正式发布新论文《Manifold-Constrained Hyper-Connections》，提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。

DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。

论文核心指出，尽管当前如Hyper-Connections（HC）这类连接结构能带来性能提升，但由于其结构复杂、缺乏约束，往往导致训练不稳定、信号失真甚至梯度爆炸等问题。

▲在27B模型中，HC的多层残差映射在反向传播中导致信号最大放大倍数逼近3000，存在梯度爆炸风险。

为此，DeepSeek提出了mHC（Manifold-Constrained Hyper-Connections）方案，将HC中的残差映射矩阵投影到双随机矩阵构成的“流形空间”，在保留拓扑表达力的同时，恢复原始残差连接的恒等映射性质。

▲DeepSeek提出的mHC结构通过流形投影重建了残差连接的稳定性。

实验证明，这一mHC方法在大规模训练中展现出显著稳定性，仅引入6.7%的训练时间开销，在多个下游任务中超越HC与Baseline模型。

▲在8个下游任务上，mHC全面超越HC，尤其在BBH（+2.1%）和DROP（+2.3%）上表现突出。

一、传统残差连接的升级难点：性能提升，但稳定性丧失

当前主流模型广泛采用Residual Connection架构，其核心优势在于具备“恒等映射”特性，可稳定信号传播、避免训练过程中信号衰减或放大。

但近年来如Hyper-Connections（HC）等结构，为提升表达能力引入更复杂的连接拓扑，将残差通道扩展至n倍宽度，并通过多个可学习映射矩阵对输入与输出特征进行重组。

然而，HC的自由形态也打破了恒等映射约束，导致训练中存在信号爆炸（最高放大至3000倍）或梯度异常的问题。

▲相较于mHC，传统Hyper-Connections在训练过程中出现显著的不稳定现象（上图），其残差连接在深层堆叠中更暴露出前向信号和反向梯度指数级放大问题（下图），成为大模型扩展的隐性障碍。

此外，HC还显著提高了GPU内存占用和通信带宽需求，限制了其在更大规模模型中的使用效率。

二、mHC关键机制：将残差映射投影到“流形”上恢复恒等映射

DeepSeek提出的mHC本质上是对HC的稳定性重构。

▲mHC将残差映射投影到双随机流形后，显著提升了前向信号与反向梯度传播的稳定性。

其核心在于：不再直接使用无约束的残差映射矩阵H_res，而是通过Sinkhorn-Knopp算法将其投影到“Birkhoff多面体”（即双随机矩阵流形）上。

这一投影操作使H_res具备以下三大性质：

1、所有行列和为1，具备能量守恒性，避免信号放大或衰减；

2、在矩阵乘法下闭合，即跨层传播仍保稳定性；

3、具备几何可解释性，是所有排列矩阵的凸组合，有利于特征信息融合。

论文中还提到，将输入/输出映射H_pre、H_post也做了正值约束，可进一步避免信号抵消现象。

▲mHC对应的残差映射矩阵更集中于1附近，反观HC则存在多个爆炸点。

三、实测效果：mHC显著提升训练稳定性与下游表现

此后，论文对比测试了Baseline、HC和mHC三种模型在27B参数规模下的训练表现与推理性能。实测结果表明，流形约束超连接（mHC）在大规模训练场景下显著优于传统超连接（HC）。

训练稳定性方面，对比传统残差、HC与mHC，HC训练中损失震荡发散，梯度爆炸；mHC损失平稳收敛，梯度稳定。

▲流形约束超连接（mHC）的训练稳定性

分析表明HC的复合映射增益高达3000（信息爆炸），而mHC控制在1.6，接近理想恒等映射，信号保真度高。

这说明，mHC通过双随机流形约束，有效抑制了多层堆叠中的信号放大与梯度爆炸问题，损失曲线平稳收敛，梯度范数保持稳定，解决了HC因数值不稳定导致的训练发散缺陷。

性能表现方面，27B模型在BBH（51.0 vs HC 48.9）、DROP（53.9 vs 51.6）、GSM8K、MATH、MMLU等任务显著优于HC与基线，取得显著增益，最高提升达2.3个百分点，验证了其在复杂推理与语义建模中的优势。

▲基准测试

可扩展性方面，3B-27B模型验证，mHC性能增益随规模扩大保持稳定甚至增强（如DROP提升从1.5→2.3），显示深层大模型中的信号保真需求更高，展现出良好的泛化能力与深层适配性。1T token训练下无过拟合，泛化能力增强。

▲(a) 计算扩展曲线；(b) token扩展曲线

系统效率方面，通过内核融合、重计算与通信重叠优化，mHC在扩展率n=4时仅引入6.7%的额外开销，通过内核融合（带宽提升22%）、重计算（内存降40%）及流水线优化（GPU利用率>90%），实现高效训练，工程可行性高。

结语：mHC或为下一代基础架构指明演进方向

作为HC范式的广义扩展，mHC为未来研究开辟了多个前景广阔的路径。

DeepSeek团队在结论中说，尽管本研究采用双随机矩阵确保稳定性，但该框架能容纳针对特定学习目标设计的多种流形约束探索。他们预计，对几何约束特性的进一步研究可能产生新颖方法，从而在可塑性与稳定性之间实现更优权衡。

此外，研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解，mHC或将有助于突破当前限制，并可能为下一代基础架构的演进指明新方向。

来源:https://www.163.com/dy/article/KI77NVM5051180F7.html

上一篇：月之暗面Kimi今年初将上线多模态新模型

下一篇：孙正义再出手：软银280亿收购DigitalBridge，押注AI基础设施

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

WPS表格提取括号内容：3步掌握MID函数实战用法

Excel批量插入对齐图片技巧：用单元格关联图形快速制表

Excel单元格斜线如何绘制并添加文字？详细图文教程

Excel单元格格式刷后换行方法：详细操作指南

PPT演示模式鼠标消失怎么办？3种方法快速唤回光标

如何在Excel看板中添加动态筛选器？三步完成教程

PDF合并教程：三步轻松将多个文件合并为一个PDF包

Excel多条件求和SUMIFS函数用法详解

精准筛选数据：Excel筛选后如何仅复制可见单元格

PDF永久删除敏感内容：3步使用遮盖工具隐藏信息

WPS表格提取括号内容：3步掌握MID函数实战用法

Excel批量插入对齐图片技巧：用单元格关联图形快速制表

Excel单元格斜线如何绘制并添加文字？详细图文教程

Excel单元格格式刷后换行方法：详细操作指南

PPT演示模式鼠标消失怎么办？3种方法快速唤回光标

如何在Excel看板中添加动态筛选器？三步完成教程

PDF合并教程：三步轻松将多个文件合并为一个PDF包

Excel多条件求和SUMIFS函数用法详解

精准筛选数据：Excel筛选后如何仅复制可见单元格

PDF永久删除敏感内容：3步使用遮盖工具隐藏信息

《人之初》首播：双线叙事成新悬疑样本，口碑褒贬不一

逍遥侯明昊时隔73天再提同样台词，恋爱脑属性揭秘

《人世间》首播：两场葬礼四条人命，张若昀马思纯悬念升级

罚罪2：豆分7.0开启，三线冲突与实力派扎堆引爆续作

新剧上线：全集8集超带感剧情，一次追完太过瘾

《逍遥》首播：赵丽颖3分钟客串引爆热议，观众评价一针见血

张若昀新剧《人之初》4集冲上热榜：悬疑剧的新标杆？

《老舅》大结局：今年最催泪感人的收官之作

2025必追十大国产剧盘点：口碑热播佳作一次收藏

马思纯《人之初》首播三小时热度破2万，演技获赞封神

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

失落板金手套获取教程：红色沙漠套装攻略发布于 2026-03-30

天命骁勇修改器2026版：风灵月影最新功能实测发布于 2026-03-30

萌将风云官网首页入口在哪？新手登录完整指引发布于 2026-03-30

怪物猎人3物语免费更新将于夏季发布发布于 2026-03-30

红色沙漠君子之弓获取指南：3个关键步骤详解发布于 2026-03-30

退换者官方修改器更新：风灵月影2026版新功能详解发布于 2026-03-30

获取燕云十六声濂珠版药材全攻略发布于 2026-03-30

龙王传说攻城战制胜策略全解析发布于 2026-03-30

日本网友晒Switch吃灰四年对比照，长毛同款引热议发布于 2026-03-30

洛克王国稀有花饲养指南：5步轻松养成世界奇丽花发布于 2026-03-30

御三家精灵对比：洛克王国世界中的优劣全解析发布于 2026-03-30

勇者斗恶龙VII重制版评测：经典再现，值得入手吗？发布于 2026-03-30

姜维实力解析：三国后期百将中的真实战力评估发布于 2026-03-30

仙剑奇侠传南宫煌答题攻略：开局必对答案详解发布于 2026-03-30

热血江湖归来：揭秘“掠日芒”主题精彩活动发布于 2026-03-30

燕云十六声扶摇峰会任务攻略：通关技巧与见闻指南发布于 2026-03-30

WPS表格提取括号内容：3步掌握MID函数实战用法发布于 2026-03-30

Excel批量插入对齐图片技巧：用单元格关联图形快速制表发布于 2026-03-30

Excel单元格斜线如何绘制并添加文字？详细图文教程发布于 2026-03-30

Excel单元格格式刷后换行方法：详细操作指南发布于 2026-03-30

PPT演示模式鼠标消失怎么办？3种方法快速唤回光标发布于 2026-03-30

如何在Excel看板中添加动态筛选器？三步完成教程发布于 2026-03-30

PDF合并教程：三步轻松将多个文件合并为一个PDF包发布于 2026-03-30

Excel多条件求和SUMIFS函数用法详解发布于 2026-03-30

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

鸣人的假期中文版下载-鸣人的假期游戏合集-鸣人的假期版本大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

梁文锋新年发DeepSeek论文，核心技术解析一如其往

DeepMind之父警示：我开发的AI或威胁人类，却已难以阻止

DeepSeek挑战Transformer记忆？查表法重塑模型架构新思路

华羿机器人登陆港交所市值破百亿，领跑国内国际市场

被投科技企业版图观察：美团AI如何链接50+伙伴

Meta智能眼镜发售在即：两款新品专为近视用户设计