Mythos架构被22岁小伙“逆推”开源了，MoE和注意力借鉴DeepSeek

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

Mythos架构被22岁小伙“逆推”开源了，MoE和注意力借鉴DeepSeek

热心网友时间：2026-04-22

转载

听说Mythos太危险被封印？有人反手就给他“重建”并开源了

最近AI圈有个挺有意思的事儿：传说中的Claude Mythos模型架构，虽然被Anthropic“封印”了，但社区可没闲着。这不，一个基于公开研究和主流推测的“重建版”——OpenMythos，已经开源了。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这个项目实现了一个核心架构：带有MoE路由机制的循环深度Transformer。它的精髓在于，通过跨专家的权重共享和条件计算，来实现一种迭代式的深度思考。简单说，就是让模型学会“反复琢磨”同一个问题。

已有研究证实，这种架构仅用一半的参数，就能获得与传统模型同等的效果。这听起来是不是有点碘伏？

不堆参数，堆循环

把这些技术碎片拼凑起来的人，是22岁的Kye Gomez，他也是Swarms智能体框架的创始人。

他设计的这套循环深度Transformer架构，核心思路可以归结为三点：

让同一组模型权重最多反复运行16次。
每次运行时，走不同的专家路径。
整个推理过程在潜在空间内完成，不对外输出中间结果。

这三者结合，指向一个结论：让一个问题“多想想”，可能比单纯堆砌参数更高效。

回顾过去两年，AI行业的标准做法是堆叠上百层不同的Transformer层，每一层学习不同的特征，代价就是参数量爆炸式增长。

而循环深度Transformer换了个思路：它不用上百层，只用几层，但允许这几层反复循环运行，最多16遍。每一遍的计算，都基于前一轮产出的结果继续深化。

问题来了：同一个模块跑16遍，难道不是重复计算、浪费算力吗？

关键在于，每次循环激活的其实是不同的“专家”。循环块内部集成了混合专家层，MoE路由器在每一轮循环中，都会动态选择激活不同的专家子集。在MoE的具体设计上，借鉴了DeepSeek-MoE的思路：使用大量细粒度的路由专家，配合少量始终在线的共享专家。

对此，Gomez有一个精妙的总结：MoE提供了领域知识的广度，而循环则赋予了推理的深度。

广度和深度都有了，还需要解决稳定性问题：如何确保循环不会“跑飞”或者发散？

来自UCSD和Together AI的一篇新论文《Parcae: Scaling Laws For Stable Looped Language Models》提出了解决方案：LTI稳定循环注入技术，确保每一轮循环都能稳定收敛。

实验数据很有说服力：一个仅7.7亿参数的循环深度Transformer模型，在性能上追平了13亿参数的标准Transformer模型。参数量少了近一半，效果却一样。这其中的效率提升，不言而喻。

最后一块技术拼图是连续潜在空间推理。这16轮推理全部在模型的隐藏状态向量中完成，不生成任何中间的文字标记。直到最后一轮循环结束，模型才一次性输出最终答案。

这与我们熟悉的思维链推理完全不同。思维链是“想一步，写一步，再想一步”，中间过程全部暴露。而循环深度Transformer是“内部反复琢磨16遍，最后才说一句话”，整个推理过程完全内化。

为了验证这种架构的潜力，Kye还引用了俄亥俄州立大学的一篇论文，其中对循环Transformer架构做了两个关键实验。

第一个实验关于系统性泛化。

在训练中从未见过的知识组合，在推理时，循环Transformer依然能正确回答，而标准Transformer直接失败。这证明循环并非简单的重复计算，而是能够进行真正的“更深层思考”，从而组合出新的解决方案。

第二个实验关于深度外推。

模型在训练时只接触过20步的推理链，但在测试时直接给出需要30步推理的问题。循环Transformer的应对策略很直接：在推理时自动增加几轮循环即可。而标准Transformer面对这种超长推理链，表现直接崩溃。

这些实验结果揭示了一个关键趋势：当前的大语言模型在预训练中已经记住了海量事实知识，真正的瓶颈在于知识的灵活组合能力。模型往往无法将已知的事实串联起来，去回答新颖、复杂的问题。而循环机制，似乎免费解锁了这种组合推理能力。

如果这些结论得到广泛验证，那么AI模型发展的主流路径，可能将从“训练更大的模型”转向“让现有模型在推理时多想几遍”。这无疑是一个更具成本效益和实用性的方向。

至此，Anthropic的Mythos是否真的采用了这套架构，似乎已经不那么重要了。重要的是，关于循环Transformer的猜想和开源实现，已经吸引了学术界和工业界的广泛目光。更多的理论验证与实验探索，显然已经在路上了。

参考链接：

[1]https://x.com/KyeGomezB/status/2045660378844024994

[2]https://arxiv.org/abs/2604.07822[3]https://arxiv.org/abs/2604.12946

来源:https://36kr.com/p/3774953856418309

上一篇： Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

下一篇：一个CLAUDE.md霸榜GitHub第一，蒸馏自Karpathy，6万码农抄作业

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

理解JavaScript事件对象中的event.srcelement属性

如何正确使用event.srcelement处理事件委托

oracle游标是什么机构？业务方向与市场定位说明

oracle游标主要业务、品牌布局与行业角色解析

event.srcelement在IE浏览器中的兼容性处理指南

linux3d桌面常见访问问题与阅读入口整理

linux3d桌面有哪些值得关注的栏目与内容方向

长城魏建军痛批魏牌团队不会营销，魏牌CEO赵永坡致歉

linux3d桌面是什么网站？内容定位与受众解析

Ubuntu Exploit：如何修复安全漏洞

校庆标语

NASA 分享宇航员太空拍地球照片，“意外”宣传苹果 iPhone 17 Pro Max

《全球人工智能治理科技社团倡议》发布

LG、三星玩“换家”：消息称 LG 电子有意三星显示 QD-OLED 显示器面板

Quick Creator

Snowball

生存33天每日必做任务有哪些-生存33天每日必做任务攻略

Auxillary AI

谷歌推进芯片供应商多元化，与Marvell展开TPU定制与推理芯片开发谈判

王者荣耀世界家园基建玩法详解王者荣耀家园建设与资源管理全攻略

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

梦幻西游159级不磨凌波城装备怎么展示发布于 2026-04-22

魔兽世界军团再临remix怎么调查过去任务发布于 2026-04-22

逃离鸭科夫万圣节版本跑刀怎么配置发布于 2026-04-22

王者荣耀4月19日每日一题2026答案一览发布于 2026-04-22

和平精英新春版本何时上线-1月27日和平精英新春版本正式上线时间发布于 2026-04-22

三角洲行动2026年4月19日今日摩斯密码分享发布于 2026-04-22

蚂蚁庄园4月20日今日答案2026 发布于 2026-04-22

神奇海洋4月19日今日答案2026 发布于 2026-04-22

潜水员戴夫如何打哥布林鲨鱼-潜水员戴夫哥布林鲨鱼打法攻略发布于 2026-04-22

三国志异闻录中武将如何分解-三国志异闻录武将分解方法发布于 2026-04-22

崩坏星穹铁道3.8混沌回忆堤溃蚁穴如何配队-崩坏星穹铁道3.8混沌回忆堤溃蚁穴配队方法发布于 2026-04-22

悠星大陆生存手册如何使用-悠星大陆生存手册的使用方法发布于 2026-04-22

《星空》PS5版和两大更新将于今天晚上11点解锁发布于 2026-04-22

洛克王国世界孵蛋需要多长时间-洛克王国世界孵蛋的时间是多久发布于 2026-04-22

Faker回应马斯克的AI对战挑战：我有信心拿下胜利！发布于 2026-04-22

曝Uzi赠老婆三百万名表：为了宠妻办比赛养家发布于 2026-04-22

Win11麦克风权限设置发布于 2026-04-22

Win11移动硬盘插上没反应发布于 2026-04-22

Win11驱动更新如何关掉发布于 2026-04-22

Win11有自带小游戏的位置详解发布于 2026-04-22

Win11面部识别修复教程发布于 2026-04-22

win11打游戏时输入法异常解决教程发布于 2026-04-22

Win11屏幕亮度被锁怎么解决发布于 2026-04-22

在vmware10上安装Mac10.8系统的图文教程发布于 2026-04-22

小米蓝牙耳机重新配对后连不上是啥原因发布于 2026-04-22

海尔燃气热水器连接wifi后能远程启动吗发布于 2026-04-22

Visual Studio怎么新建网页页面-新建网页页面的详细步骤分享发布于 2026-04-22

SketchUp画墙体教程：SU建筑建模快捷技巧发布于 2026-04-22

大松电饭煲故障大全有官方版吗？发布于 2026-04-22

TPU硬刚AMD！质疑9950X3D2精准控评：硬核评测机构集体缺席发布于 2026-04-22

学习通在线入口官网登录学习通官网入口网页版登录发布于 2026-04-22

压缩机看型号分铜铝常见误区有哪些发布于 2026-04-22

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

Mythos架构被22岁小伙“逆推”开源了，MoE和注意力借鉴DeepSeek

听说Mythos太危险被封印？有人反手就给他“重建”并开源了

不堆参数，堆循环

什么是RPA？为什么用RPA？RPA如何工作？

不破不立，让RPA像Excel一样方便易用

RPA技术在营销业务中的应用案例

RPA技术的概念、优势和技术架构

基于RPA的财务共享服务中心资金管理系统框架