Claude Mythos架构开源解析 22岁开发者独立复现DeepSeek方案

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Claude Mythos架构开源解析 22岁开发者独立复现DeepSeek方案

热心网友时间：2026-05-18

转载

近期人工智能领域发生了一起引发行业广泛关注的突破性事件。Anthropic公司高度保密的Claude Mythos核心架构，竟被一位22岁的年轻创业者通过公开资料，运用第一性原理完整推导并成功复现。

更令人瞩目的是，这位名为Kye Gomez的初创公司CEO，将其复现项目——OpenMythos——进行了全面开源。这一举动迅速在技术社区引发了关于其精妙架构设计的热烈讨论。

相关的技术复现解析吸引了近百万的浏览量，众多开发者和研究者纷纷惊叹于Mythos架构背后设计的巧妙与高效。

不依赖参数堆叠，实现16次「循环思考」

那么，OpenMythos所揭示的核心技术秘密究竟是什么？根据Kye Gomez的深入分析，Claude Mythos的核心并非一个参数规模更大的Transformer模型，而是一种被称为“循环深度Transformer”的创新架构。

简而言之，这种架构不再单纯追求参数量的“堆料”，而是让同一套模型权重，在单次前向传播过程中，最多可以循环执行16次计算。

传统的大模型扩展思路，类似于不断加高建筑楼层。100层不够就建200层，参数越多，模型越庞大，对显存容量和训练成本的要求也呈指数级上升。

然而，RDT架构彻底改变了这一范式：它不再追求盖更高的楼，而是让模型在同一个“计算场地”上反复进行深度推演。模型仅有一个核心计算模块，但这个模块会被反复调用。每完成一次循环，模型的隐藏状态就更新一次，相当于模型“多进行了一步深度思考”。其关键在于，所有这些“思考”过程都在连续的潜在空间中进行，无需像传统的思维链技术那样，每一步都必须输出可见的文本标记。

这绝非简单的重复计算，而是一种高效的迭代式深度推理机制。

架构全面解析：三段式精巧设计

整个OpenMythos的架构可以被清晰地划分为三个逻辑阶段：序曲（Prelude）→ 循环核心（Recurrent Block）→ 终章（Coda）。

其中，序曲和终章是标准的Transformer层，各执行一次。真正的技术玄机隐藏在中间的“循环块”，它最多可循环16次。其状态更新规则可以概括为以下公式：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

公式中的e代表经过序曲编码后的原始输入。在每一步循环中，这个原始信息都会被重新注入到计算中，从而有效防止模型在漫长的内部迭代过程中“思维跑偏”或遗忘初始问题，确保了推理的准确性和一致性。

MoE拓展知识广度，循环机制深化思考

单一的循环机制主要增强了模型推理的“深度”，但如何同时实现知识的“广度”覆盖呢？答案在于混合专家系统的集成。

OpenMythos在循环核心的每个前馈网络层，都替换成了MoE层，其设计参考了DeepSeek-MoE的先进思路：采用大量细粒度的专家网络；每个输入标记仅激活其中一小部分专家；同时设置少量“共享专家”始终保持激活状态，以承载跨领域的通用知识与能力。

最精妙的设计在于，随着隐藏状态h_t在循环中不断演化，路由机制在每一次循环深度上，都可能动态选择不同的专家子集。这意味着，尽管模型权重是共享的，但每一次循环所激活的计算路径却可以完全不同。可以说，MoE机制提供了横向的知识广度与多样性，而循环机制则提供了纵向的、递进式的思考深度。

在注意力机制方面，项目默认采用了源自DeepSeek-V2的“多潜在变量注意力”技术，它能将键值缓存压缩为低秩的潜在变量，在大规模生产部署场景下，有望实现10-20倍的KV缓存显存节省，显著提升推理效率。

此外，为了确保循环过程的稳定性和可控性，架构中还引入了三项关键机制：LTI约束注入（强制谱半径小于1以防止状态发散）、自适应计算时间（允许模型根据复杂度在不同位置提前停止计算）、以及深度级LoRA适配器（让每次迭代都能进行独立且灵活的行为微调）。整套设计环环相扣，精密程度令人叹服。

7.7亿参数媲美13亿，参数效率实现翻倍

这种创新架构的优势并非停留在理论层面。此前，来自Parcae研究团队的实验数据已经证实：一个仅包含7.7亿参数的循环模型，在同等训练数据条件下，能够达到13亿参数标准Transformer模型在下游任务上的性能表现。

换言之，仅用一半左右的参数量，就完成了同等水平的工作。参数效率的提升是显著且可量化的。

这对整个AI行业意味着什么？首先，对于消费级硬件和广大开发者而言，这无疑是一个重大利好。过去想要运行一个性能尚可的大型模型，没有高端专业显卡几乎难以实现。而现在，推理深度可以通过“以时间换空间”的策略来实现——你不再需要巨大的显存，只需要让模型进行更多次的循环“思考”。

更深层次的影响在于，它可能正在悄然改写AI模型的扩展定律。以往的竞争很大程度上是参数规模、算力集群规模和能源消耗的比拼。未来的规则或许将转变为：最强的模型，未必是参数最多的，但很可能是“思考”次数最多、推理最深的那一个。当然，这目前更多是一种基于理论推演和初步实验的展望，其实际效果与潜力仍需通过更大规模的工程实践来验证。