循环语言模型：提升参数效率的潜在推理新范式

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

循环语言模型：提升参数效率的潜在推理新范式

热心网友时间：2025-11-04

转载

Ouro模型在参数效率方面表现出卓越性能，其1.4B和2.6B参数规模的模型表现足以媲美甚至超越12B参数的SOTA模型。这种效率提升主要得益于创新的循环架构设计，使得相同的参数能够被重复利用，从而在固定参数预算内实现更深的计算深度。

当前主流大语言模型（LLM）通常通过思维链（Chain-of-Thought, CoT）等显式文本生成方式进行"思考"，这种方法将推理过程延后到训练后阶段，未能充分利用预训练数据。本文介绍了一个名为Ouro的开源预训练循环语言模型（LoopLM）系列，其命名灵感来源于象征循环的衔尾蛇（Ouroboros），通过三项关键创新将推理能力直接构建到预训练阶段：在潜在空间中进行迭代计算；基于熵正则化目标函数实现自适应深度分配；以及扩展至7.7万亿token的超大规模训练。

核心创新与技术亮点

Ouro模型在参数效率方面的突破令人瞩目，其核心优势在于独特的循环架构设计。这种设计使得参数能够被循环复用，从而在不增加参数量的前提下显著提升模型的计算深度与推理能力。

如上图所示，Ouro采用参数共享的循环架构（左），使得1.4B和2.6B参数规模的模型（红色）能够与更大规模的基础模型相媲美甚至实现超越（中、右）。

循环语言模型（LoopLM）架构

LoopLM的核心思想是通过递归方式重复应用共享权重的层，在固定参数预算内实现动态计算。与标准Transformer不同，LoopLM将L层Transformer块视为可重复应用T次的计算单元。

这种设计实现了计算深度与参数数量的解耦，模型可以通过增加递归步数（T）来增强推理能力，而无需增加参数量。

自适应计算与早退机制

Ouro模型的另一项创新是自适应计算深度分配机制。通过学习得到的早退门控函数，模型能够根据输入复杂度动态决定所需的递归步骤。

如图所示，训练阶段（左）模型应用N个共享权重层进行n次递归步骤。每一步i，退出门预测概率pi，语言建模头计算任务损失。训练目标结合了所有步骤的期望任务损失与熵正则化项。推理阶段（右），模型可以基于累积分布函数（CDF）提前退出，为简单输入分配较少步骤，为复杂输入分配更多步骤。

熵正则化训练目标

为了让模型学会何时应该退出递归计算，作者设计了一个熵正则化的训练目标。

其中第一项是期望任务损失，第二项是退出步骤分布的熵正则化。与此前工作不同，Ouro采用均匀先验而非几何先验，这使得模型能够不受偏见地探索所有可能的计算深度。

实验结果与性能分析

参数效率

Ouro模型在参数效率方面表现卓越，1.4B参数模型（4次递归）性能可匹配4B标准Transformer，2.6B参数模型可媲美8B标准模型，实现了2-3倍的参数效率提升。

如图所示，Ouro-Thinking模型在多项数学和科学数据集上与更大规模的基线模型相当或超越。

递归深度与性能关系

研究发现，增加递归步数通常会提升模型性能，但这种提升在达到训练深度（T=4）后会出现饱和。有趣的是，即使在超出训练配置的步数（T>4）时，模型的安全性仍会持续提高，表明迭代精炼过程对安全对齐有积极影响。

知识容量与操作能力

通过控制实验，研究者发现LoopLM的优势并非来自增加的知识存储容量（每参数约2比特，与非循环模型相同），而是来自显著增强的知识操作能力。在需要事实组合和多跳推理的任务上，LoopLM表现出明显优势。

如图所示，左侧展示了循环模型与标准模型在知识容量上的相似性，而右侧表格展示了循环模型在知识操作任务上的优势。

安全性、忠实度与一致性

安全性

研究结果表明，随着递归步数的增加，Ouro模型在HEx-PHI基准测试上的有害性降低，这一趋势甚至在超出训练配置的步数（5-8步）时仍然持续。

如图所示，随着递归步数增加，模型在HEx-PHI上的有害性得分和有害率均显著下降。

推理忠实度

与标准LLM的思维链不同，LoopLM的潜在推理过程与最终答案因果关系相关。研究者通过在Quora Question Pairs数据集上的实验发现，随着递归深度增加，模型的决策会发生实质性变化，表明内部推理确实影响最终输出。

如图所示，左侧展示了不同递归步骤中线性探针的ROC AUC，右侧热图显示了不同步骤间预测标签的一致性。这种系统性的不一致表明，模型在递归深化过程中确实在更新其决策。

技术实现细节

训练流程

Ouro模型采用多阶段训练流程，包括预热、稳定训练、CT退火、长上下文训练和指令调优等阶段，总计在7.7万亿token上进行训练。

如图所示，训练过程从共同的预热阶段开始，然后分为两个流：一个保持1.3B参数（产生Ouro-1.4B），一个上循环至2.6B参数（产生Ouro-2.6B）。两个流独立经历相同的后续四阶段训练过程，最后通过推理SFT阶段创建Ouro-Thinking模型。

KV缓存共享策略

为解决循环架构导致的内存开销问题，研究者探索了KV缓存重用策略，发现在解码阶段，仅保留最后一步的KV缓存或所有步骤的平均KV缓存，可以在几乎不损失性能的情况下将内存需求降低4倍。

未来展望与应用前景

循环语言模型（LoopLM）为大语言模型的发展提供了一个新的扩展方向，超越了传统的参数规模和数据量两个维度。未来研究可以从以下几个方面进一步探索：

递归机制的优化：探索更复杂的递归结构，如条件递归或混合递归，进一步提升模型的推理能力和参数效率。

自适应深度分配的精细化：开发更精确的门控机制，能够在token级别动态分配计算资源，为不同类型输入内容提供最优的计算深度。

多模态LoopLM：将循环架构扩展到多模态领域，探索在视觉-语言任务中的应用潜力，特别是需要多步推理的复杂场景理解任务。

边缘设备部署：利用LoopLM的参数效率优势，开发适用于资源受限设备的高效推理系统，实现本地化的复杂推理能力。

结合神经符号方法：将LoopLM与神经符号推理系统结合，探索如何利用循环结构更好地实现符号操作和逻辑推理。

这些方向不仅能够进一步提升模型性能，还有望在实际应用中解决计算资源限制问题，使高级推理能力更广泛地应用于各种场景。

结论

Ouro循环语言模型展示了通过架构创新实现参数效率提升的巨大潜力。通过在预训练阶段直接构建迭代计算和自适应深度分配机制，LoopLM在固定参数预算内实现了卓越的推理性能。这种方法不仅提高了模型效率，还增强了安全性和推理忠实度，为未来大语言模型的发展提供了新的思路。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

盗宝小妖高分通关攻略与实战技巧详解

魔兽世界凄凉之地前往路线与交通指南

无限火力剑魔最强出装符文搭配攻略

和平精英最新版更新教程卡顿下载慢解决方法汇总

DNF皇女艾莉婕身份背景与剧情详解

梦幻西游东海湾蜃境入口选择攻略与路线推荐

魔兽世界巫妖王怀旧服裁缝专业速冲450级指南

DNF女枪手职业推荐：哪个职业最强最好用

三角洲行动M82狙击枪改装方案配件搭配与实战技巧

极限竞速地平线6豪华版与标准版详细区别对比

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

洛克王国独角仙踪地图位置详解与寻找攻略

洛克王国博得材料屋具体位置与寻找攻略

洛克王国枫雪镇现在还能进入吗最新情况说明

175魔化生寺装备选择与搭配全攻略

暗黑破坏神4熔岩殉道者钓鱼位置详解

异环娜娜莉爬墙技巧与详细操作步骤解析

红色沙漠漆黑射手板金披风获取方法全攻略

暗黑破坏神4食尸鬼蠕虫钓鱼位置与获取方法

炉石传说滋养自然卡牌效果与使用指南

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

聪明开局吧第185关桥找出16个常用字通关图文攻略发布于 2026-05-15

深海迷航2异星水域声波共振器获取与使用指南发布于 2026-05-15

异环时停技能效果解析与实战应用指南发布于 2026-05-15

羊了个羊214关卡通关技巧与详细攻略分享发布于 2026-05-15

星球大战旧共和国武士2西斯领主重制版计划被EA取消发布于 2026-05-15

深海迷航2循环呼吸器蓝图位置与获取方法详解发布于 2026-05-15

原神妮露技能解析与实战机制详解发布于 2026-05-15

ARC Raiders背景故事解析与下次重大更新前瞻发布于 2026-05-15

Apex英雄探路者最强武器搭配推荐发布于 2026-05-15

困境抉择游戏玩法解析：值得体验的策略挑战发布于 2026-05-15

花底裤如何赋予我无限力量与自信发布于 2026-05-15

PlayStation无障碍游戏设备捐赠仪式在上海举办发布于 2026-05-15

港务大亨竞拍风云怎么玩游戏玩法与特色介绍发布于 2026-05-15

5月16日钓鱼活动公告：时间地点与报名指南发布于 2026-05-15

幻世录重制版2026年发售经典战棋游戏首曝预告发布于 2026-05-15

只狼三年前义父剧情触发全流程攻略发布于 2026-05-15

Win11桌面小组件添加与自定义设置教程发布于 2026-05-15

Win10磁盘配额设置教程如何限制用户磁盘使用空间发布于 2026-05-15

Windows 11 超级任务栏预览开启教程提升窗口悬停显示速度发布于 2026-05-15

Win11多时区时钟设置教程添加显示多个地区时间发布于 2026-05-15

Windows 11 高性能图形加速设置教程强制系统调用独立显卡方法发布于 2026-05-15

Windows 11游戏崩溃怎么解决优化显存设置提升3A大作稳定性发布于 2026-05-15

Win10查看磁盘使用情况与各分区容量方法详解发布于 2026-05-15

Win10文件夹视图设置教程统一显示方式详细步骤发布于 2026-05-15

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

循环语言模型：提升参数效率的潜在推理新范式

核心创新与技术亮点

循环语言模型（LoopLM）架构

自适应计算与早退机制

熵正则化训练目标

实验结果与性能分析

参数效率

递归深度与性能关系

知识容量与操作能力

安全性、忠实度与一致性

安全性

推理忠实度

技术实现细节

训练流程

KV缓存共享策略

未来展望与应用前景

结论

相关资源

阿里钉钉文档全功能解析在线协同办公套件使用指南

商汤小浣熊智能助手基于自研大语言模型

MiniMax新一代智能模型矩阵全面解析与应用指南

智能客服机器人解决方案：AI客服系统提升企业服务效率

开源企业答疑工具Danswer：高效解决团队知识管理难题