OpenMythos开源：基于PyTorch复现Claude深度推理架构

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

OpenMythos开源：基于PyTorch复现Claude深度推理架构

热心网友时间：2026-05-18

转载

关于Anthropic那个神秘的Claude Mythos，业内一直有各种传闻。它在复杂推理和系统性泛化上的表现据说相当惊人，但始终闭源，让人只能猜测其内部机制。现在，情况有了新变化。

一个名为OpenMythos的项目刚刚出现，它从第一性原理出发，用PyTorch完整实现了一套对Claude Mythos架构的大胆理论重建。这并非简单的复制，而是基于近期循环变换器相关论文的一次深度探索，试图揭开那个“神话级”模型的面纱。

Claude Mythos 到底是什么？核心猜想：循环深度变换器（RDT）

要理解OpenMythos的假设，得先看看传统Transformer的局限。通常，想增加模型深度，就得堆叠更多层。但OpenMythos提出了一个完全不同的思路：Claude Mythos很可能是一种循环深度变换器。

它的核心想法很巧妙——让同一个Transformer块在单次前向传播中循环执行多次，权重完全共享。这样一来，就能用更少的参数，撬动更深的推理深度。具体来看，这个架构可以分为三个清晰的阶段：

前奏（Prelude）：这是一个标准的Transformer层，只运行一次，负责对输入进行初始处理，打好基础。

循环块（Recurrent Block）：这里是架构的心脏。同一个块会反复循环执行。为了防止循环过程中信息衰减或崩溃，每次循环都会通过一种稳定的线性时不变输入注入机制，将原始输入重新融合到隐藏状态中。这个块内部还有更多设计：前馈网络采用了混合专家模式，每次只激活稀疏的top-K专家，同时保留少量共享专家。关键在于，不同的循环深度会路由到不同的专家子集，这让每一次“思考”迭代都具有计算上的独特性，而非简单重复。注意力机制则默认采用类似DeepSeek-V2的多潜在注意力，通过低秩键值缓存，据说能大幅降低内存占用。

结尾（Coda）：最后一个标准层，只运行一次，负责输出最终结果。

此外，项目还引入了多项旨在提升稳定性的机制，比如自适应计算时间，让模型自己动态决定何时停止循环；以及深度方向的LoRA适配器，为不同迭代提供额外的表达能力，又不显著增加参数总量。

为什么这可能碘伏现有 scaling law？

传统模型的扩展，主要围绕着增加参数数量和训练数据量。但OpenMythos所探索的路径，引入了一个新的维度：推理时的循环深度。根据相关论文和实验，一个仅拥有7.7亿参数的循环模型，在相同数据条件下，性能可以媲美13亿参数的标准模型。这意味着，推理深度本身成了一种可以动态调节的计算资源——模型在训练时可能只学习了20跳的推理，但在实际应用时，将循环增加到30跳依然有效。