字节Seed团队开源循环模型Ouro：预训练即具备自主推理能力，Bengio团队参与研发

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

字节Seed团队开源循环模型Ouro：预训练即具备自主推理能力，Bengio团队参与研发

热心网友时间：2025-11-05

转载

字节 Seed 团队与多家研究机构联合推出了名为 Ouro 的新型预训练模型，它属于"循环语言模型"(Looped Language Models)这一创新类别，其命名灵感来源于象征循环与自我吞噬的"衔尾蛇"(Ouroboros)神话意象。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

当前大多数语言模型依赖显式的文本生成过程（例如"思维链"）来进行"思考"训练。这种策略将推理任务推迟到训练完成后的阶段，未能充分利用预训练数据中蕴藏的潜力。

为突破这一局限，字节 Seed 团队联合多方推出了 Ouro，这是循环语言模型技术路线下的突破性成果。其名称取自象征循环与自我更新的古老符号"衔尾蛇"(Ouroboros)。

Ouro 通过三个创新路径实现了突破：(i)在潜在空间进行迭代计算，(ii)采用熵正则化目标实现学习型深度分配，以及(iii)扩展至7.7T tokens的训练数据规模，从而将推理能力直接构建于预训练阶段。这些设计使得模型能在预训练过程中直接学习和构建推理能力，而非仅仅依赖后期微调。

论文标题：Scaling Latent Reasoning via Looped Language Models论文地址：https://arxiv.org/pdf/2510.25741项目主页：https://ouro-llm.github.io/HuggingFace：https://huggingface.co/collections/ByteDance/ouro

通过对比较验，研究发现 Ouro 的性能提升并非源于知识存储量的增加，而是得益于其更高效的知识操控与推理能力。进一步分析表明，Ouro 的潜在推理过程相较于标准 LLM，更贴近真实的人类推理机制。

Ouro 循环语言模型的性能表现。（左）参数共享的循环架构。（中与右）雷达图比较了 Ouro 1.4B 与 2.6B 模型（均采用4个循环步，红色）与独立的 Transformer 基线模型。我们的模型表现出强劲性能，可与更大规模的基线模型相媲美，甚至在部分任务上实现超越。

最终，Ouro 的1.4B和2.6B参数规模的LoopLM，在几乎所有基准测试中都达到了与4B和8B标准 Transformer 相当的性能，实现了2-3倍的参数效率提升，展现了其在数据受限时代作为一种新型扩展路径的潜力。

在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型（如Qwen3和DeepSeek-Distill）进行对比。Ouro-1.4B-Thinking R4 的性能可与4B规模模型相媲美，而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到甚至超越了8B规模模型。

此外，LoopLM 架构在HEx-PHI基准上显著降低了有害性，且随着循环步数（包括外推步）增加，模型的安全性进一步提升。与传统的CoT方法不同，研究者的迭代隐变量更新机制产生的是因果一致的推理过程，而非事后的合理化解释。