当前位置: 首页
AI
DeepSeek新年论文:梁文锋署名,提出全新mHC架构

DeepSeek新年论文:梁文锋署名,提出全新mHC架构

热心网友 时间:2026-01-01
转载

IT之家1月1日消息,北京时间今天下午,DeepSeek发布了一篇新论文,提出了名为mHC的全新架构。据论文介绍,此项研究旨在解决传统超连接在大规模模型训练中的稳定性问题,同时保持其显著的性能增益。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这篇论文的第一作者共有三位:Zhenda Xie、Yixuan Wei和Huanqi Cao。值得一提的是,DeepSeek创始人兼CEO梁文锋也在作者名单之列。

DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单

IT之家摘录论文摘要大意如下:

近期,以超连接为例的研究通过扩展残差流宽和多样化连接模式,拓展了过去十年建立的无处不在的残差连接范式。虽然带来了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。

为了应对这些挑战,我们提出了流形约束超连接,这是一个通用框架,可将HC的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

实验表明,mHC对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC作为HC的灵活且实用的扩展,将有助于更深入地理解拓朴架构设计,并为基座模型的演进提供有希望的方向。

论文链接

Hugging Face:https://huggingface.co/papers/2512.24880

Arxiv:https://arxiv.org/abs/2512.24880

来源:https://tech.ifeng.com/c/8pYxGLp7TkL

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1 4 万亿词元!阿里 Qwen3 6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录 这事儿挺震撼的。就在4月4日,全球最大的AI模型聚合平台OpenRouter在其官方账号上公布了一个爆炸性数字:阿里刚刚发布的千问新模型Qwen3 6-Plus,上线仅仅一天,日调用量

时间:2026-04-04 13:52
实战指南:基于快马平台深度开发,构建企业级workbuddy团队项目管理看板

实战指南:基于快马平台深度开发,构建企业级workbuddy团队项目管理看板

深度开发指南:利用快马平台高效构建企业级WorkBuddy团队项目管理看板 近期在开发团队协作工具WorkBuddy的项目管理模块时,传统开发模式的周期漫长令人困扰。转而采用快马平台(即InsCode)后,开发效率得到显著提升。本文将详细分享如何基于快马平台,快速搭建一个功能完善、体验流畅的企业级项

时间:2026-04-04 10:35
消息称 Meta 低调组建独立硬件团队,打造以多种形态陪伴人类的智能体

消息称 Meta 低调组建独立硬件团队,打造以多种形态陪伴人类的智能体

消息称 Meta 低调成立独立硬件部门,致力于研发多形态人类陪伴型智能体设备 4月4日凌晨,《商业内幕》发布独家报道引发行业关注。多位知情人士透露,Meta公司正悄然为其“超级智能”业务线组建一支独立的硬件研发团队,并任命资深硬件工程师负责整体管理。此举被视为Meta在人工智能设备战略布局上的关键一

时间:2026-04-04 08:55
AI 的记忆不是硬盘——从 40 个真实 Bug 说起

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上

时间:2026-04-03 17:56
OpenClaw给每个Agent单独指定workspace

OpenClaw给每个Agent单独指定workspace

OpenClaw中为每个Agent配置独立工作区的最佳实践 在大模型智能体协作平台上,实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台,为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每

时间:2026-04-03 17:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程