当前位置: 首页
AI
22岁开发者开源Mythos架构解析MoE与注意力机制设计

22岁开发者开源Mythos架构解析MoE与注意力机制设计

热心网友 时间:2026-05-19
转载

传闻中因风险过高而被封存的Mythos模型,如今竟以开源形式“重生”。一个名为OpenMythos的项目,正尝试整合当前公开的研究成果与业界对Claude Mythos架构的主流推测,致力于复现这一传说中的模型。

其核心架构是一个集成了MoE路由机制的循环深度Transformer。简而言之,该设计让同一组模型权重在推理过程中循环工作,但每次循环会通过路由机制激活不同的“专家”路径,并在一个内部的潜在空间内完成所有迭代计算,从而实现更深层次的推理。

已有研究表明,这种创新的模型架构仅需传统模型一半的参数量,即可达到同等的性能表现。

不堆参数,堆循环

将这些技术拼图整合起来的是22岁的Kye Gomez,他同时也是Swarms智能体框架的创始人。

他所设计的这套循环深度Transformer架构,其精髓主要体现在以下三个方面:

  • 允许同一组模型权重最多循环执行16次;
  • 每次循环会激活不同的专家路径;
  • 整个推理过程在潜在空间内闭环完成,不对外输出任何中间结果。

这三者协同作用,其核心思想可以概括为一句话:让模型对一个问题进行“多轮深度思考”,远比单纯地堆叠更多参数要高效。

过去两年,行业的普遍做法是堆叠上百层不同的Transformer层,每层学习不同的特征,导致模型参数量爆炸式增长。而循环深度Transformer则反其道而行,它仅使用少数几层,但允许这些层反复循环运行(最高可达16次),每一轮的思考都建立在前一轮结果的基础上,不断深化。

你可能会疑惑:让同一组权重运行16遍,这不是在浪费计算资源吗?

关键在于,每次循环所激活的“专家”是不同的。循环块内部采用了混合专家层,MoE路由器在每一轮中都会动态选择激活不同的专家子集。这套MoE设计借鉴了DeepSeek-MoE的思路:使用大量细粒度的路由专家,并配合少量始终处于激活状态的共享专家。

Gomez对此有一个精妙的比喻:MoE机制提供了领域知识的广度,而循环机制则赋予了推理过程的深度。

具备了广度和深度,还需要确保循环过程的稳定性,避免思维“跑偏”或发散。来自UCSD和Together AI的一篇新论文《Parcae: Scaling Laws For Stable Looped Language Models》提出的LTI稳定循环注入技术,恰好解决了这一关键问题。

实验数据极具说服力:使用7.7亿参数的循环深度Transformer,在多项基准测试上的性能追平了13亿参数的标准Transformer。参数量减少了近一半,效果却保持一致。

最后一块关键技术拼图是“连续潜在空间推理”。这16轮推理全部在模型内部的隐藏状态向量中闭环完成,不生成任何中间的文字标记。直到最后一轮循环结束,模型才一次性输出最终答案。

这与我们熟悉的思维链推理模式截然不同。思维链是“想一步,输出一步,再基于输出想下一步”,中间过程完全暴露。而循环深度Transformer则是“在内部潜在空间中反复琢磨16遍,然后才给出最终结论”,整个深度推理过程完全内化。

循环,不是重复

为了验证这种架构的有效性,Kye还引用了俄亥俄州立大学的一篇相关论文,其中对循环Transformer架构进行了两个关键实验。

第一个实验关乎系统性泛化能力。面对训练时从未见过的知识组合问题,循环Transformer在推理时依然能够正确回答,而标准Transformer则直接失败。这证明循环机制并非简单的重复计算,而是真正实现了更深层次的信息整合与思考。

第二个实验关乎深度外推能力。在训练时只让模型学习20步的推理链,但在测试时直接给出需要30步推理的复杂问题。循环Transformer的应对策略很直接:在推理时自动增加内部循环轮数。而标准Transformer面对这种超出训练范围的题目,性能则大幅下降。

这些实验结果指向一个重要结论:当前的大型语言模型在预训练中已经记忆了海量事实知识,真正的瓶颈在于知识的灵活组合与复杂运用。模型往往难以将已知的分散事实有效地串联起来,以解答一个新颖的复合型问题。而循环推理机制,似乎为模型免费解锁了这种组合推理与深度思考的能力。

如果这些发现被广泛证实,那么AI模型扩展的主流方向,可能会从“训练参数量更大的模型”逐渐转向“让现有模型在推理时进行更多轮、更深度的思考”。

至此,Anthropic的Mythos模型是否真的采用了这套具体架构,似乎已不那么重要。关于循环Transformer的潜力与猜想,已经吸引了学术界和工业界的广泛关注。更多的理论验证与实验探索,想必已在路上。

该项目代码已在GitHub平台开源。

参考链接:[1] [2] [3]

来源:https://www.163.com/dy/article/KQVJ5H5P0511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
可灵AI制作陶艺拉坯动画教程:从零到一的详细步骤

可灵AI制作陶艺拉坯动画教程:从零到一的详细步骤

你是否曾尝试使用可灵AI生成陶艺拉坯过程的演示视频,却常常发现生成的动作不够自然,手部与泥坯的形变也缺乏连贯的物理逻辑?这主要是因为通用的视频生成模型,并未针对陶瓷制作这类需要精细、专业动作序列的领域进行专门训练。但无需担忧,通过一系列针对性的优化策略,我们完全可以引导AI输出更符合物理规律与行业标

时间:2026-05-19 22:33
CodeBuddy代码重构实战指南:方法与步骤详解

CodeBuddy代码重构实战指南:方法与步骤详解

面对代码结构混乱、逻辑耦合严重、命名不规范的技术债务,团队常因资源紧张、时间有限而难以启动重构。传统人工重构不仅成本高、风险大,后续的验证工作也令人望而生畏。 如今,有了更高效的解决方案。CodeBuddy 提供多种灵活的重构路径,能针对不同场景,系统化地帮助你清理代码债务。无论是单文件的局部优化,

时间:2026-05-19 22:32
优化Figma大文件加载慢问题:清理隐藏图层释放内存

优化Figma大文件加载慢问题:清理隐藏图层释放内存

处理大型Figma设计文件时,如果遇到加载缓慢、页面空白或操作卡顿,问题往往不在于你的电脑配置,而在于文件内部那些“看不见的负担”——堆积的隐藏图层、未释放的内存引用以及冗余的资源占用。别担心,这并非无解。通过一套系统性的内存管理和图层清理流程,完全可以让臃肿的文件重新变得轻盈流畅。下面,我们就来一

时间:2026-05-19 22:32
SSH密钥配置与访问权限安全设置最佳实践

SSH密钥配置与访问权限安全设置最佳实践

如果您的QoderWake服务器环境仍然依赖传统密码进行远程登录,这相当于在服务器入口仅安装了一把简易挂锁,安全防护极为薄弱。暴力破解攻击、会话劫持风险、凭证意外泄露……这些安全隐患时刻威胁着系统安全。将认证机制全面升级为SSH密钥登录,并结合系统性的安全加固策略,是构建企业级服务器访问安全防线的行

时间:2026-05-19 22:32
车企集体布局机器人技术如何推动汽车工业智能化变革

车企集体布局机器人技术如何推动汽车工业智能化变革

全球主流车企正跨界布局具身智能机器人,借助技术复用、制造协同与场景闭环等优势,破解硬件成本高、量产不足与盈利模式模糊等产业瓶颈。此举旨在推动人形机器人实现万台级规模化应用,完成向“具身智能解决方案提供商”的战略转型,重塑智能制造与人工智能的未来格局。

时间:2026-05-19 22:32
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程