字节Seed团队开源循环模型Ouro:预训练即具备自主推理能力,Bengio团队参与研发
字节 Seed 团队与多家研究机构联合推出了名为 Ouro 的新型预训练模型,它属于"循环语言模型"(Looped Language Models)这一创新类别,其命名灵感来源于象征循环与自我吞噬的"衔尾蛇"(Ouroboros)神话意象。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
当前大多数语言模型依赖显式的文本生成过程(例如"思维链")来进行"思考"训练。这种策略将推理任务推迟到训练完成后的阶段,未能充分利用预训练数据中蕴藏的潜力。
为突破这一局限,字节 Seed 团队联合多方推出了 Ouro,这是循环语言模型技术路线下的突破性成果。其名称取自象征循环与自我更新的古老符号"衔尾蛇"(Ouroboros)。
Ouro 通过三个创新路径实现了突破:(i)在潜在空间进行迭代计算,(ii)采用熵正则化目标实现学习型深度分配,以及(iii)扩展至7.7T tokens的训练数据规模,从而将推理能力直接构建于预训练阶段。这些设计使得模型能在预训练过程中直接学习和构建推理能力,而非仅仅依赖后期微调。

论文标题:Scaling Latent Reasoning via Looped Language Models论文地址:https://arxiv.org/pdf/2510.25741项目主页:https://ouro-llm.github.io/HuggingFace:https://huggingface.co/collections/ByteDance/ouro
通过对比较验,研究发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相较于标准 LLM,更贴近真实的人类推理机制。

Ouro 循环语言模型的性能表现。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用4个循环步,红色)与独立的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上实现超越。
最终,Ouro 的1.4B和2.6B参数规模的LoopLM,在几乎所有基准测试中都达到了与4B和8B标准 Transformer 相当的性能,实现了2-3倍的参数效率提升,展现了其在数据受限时代作为一种新型扩展路径的潜力。

在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如Qwen3和DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与4B规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到甚至超越了8B规模模型。
此外,LoopLM 架构在HEx-PHI基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的CoT方法不同,研究者的迭代隐变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。
循环架构
LoopLM 架构的设计灵感来源于"通用 Transformer"。其核心思路是在固定的参数预算内实现"动态计算"。具体而言,该架构包含一个由N个共享权重层组成的"层堆栈"。
在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个"循环步骤"。这种设计将模型的计算规模从"参数数量"解耦到了"计算深度"。
该架构的关键特性是其自适应计算能力。它集成了一个学习到的"退出门",当模型处理输入时:简单输入可能会在经过较少循环步骤后就提前退出,从而节省计算资源;复杂输入则会被自然地分配更多迭代次数,以进行更深层的处理。
这种迭代重用被视为一种"潜在推理"。与CoT在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个"潜在思维链"。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。
训练流程
Ouro 的训练流程是一个多阶段过程,总共使用了7.7T tokens的数据。
如图4所示,该流程始于一个通用的预热阶段,随后是使用3T token的初始稳定训练阶段。在此之后,模型通过"upcycling"策略分支为1.4B和2.6B两种参数规模的变体。

两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT退火(CT Annealing, 1.4T token)、用于长上下文的LongCT(20B token)以及中途训练(Mid-Training, 300B token)。
这个过程产生了Ouro-1.4B和Ouro-2.6B两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。
在训练稳定性方面,团队发现最初使用8个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步数减少到4,以此在计算深度和稳定性之间取得了平衡。
为了让模型学会何时"提前退出",训练流程采用了新颖的两阶段目标:

循环语言模型架构概览。
左图为训练阶段。在训练过程中,模型使用共享参数的N层层叠结构,并执行n个循环步骤(R=1到R=n)。在每个循环步骤i,一个退出门预测退出概率pᵢ,而语言建模头Lᵢ则计算对应的任务损失。训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。
右图为推理阶段。在推理时,模型可根据由退出概率计算得到的累积分布函数(CDF)提前终止。当
超过设定阈值时,模型将在第i个循环步骤停止,从而实现自适应计算:为复杂输入分配更多循环步数,同时在简单输入上保持高效推理。图中的虚线表示模型在提前退出后可能被跳过的后续步骤。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?
AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体
Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
美国犹他州启动新试点项目:AI为患者开具精神类药物处方
IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

