隐式思维链模型LRT推理能力更强速度更快
最近,大模型推理领域出现了一个挺有意思的新思路。来自哈尔滨工业大学(深圳)、深圳河套学院和Independent Researcher的研究团队,提出了一种名为LRT(Latent Reasoning Tuning,隐式思考模型)的方法。它试图解决一个越来越明显的痛点:那些“慢思考”模型动辄生成数千字的推理过程,真的有必要吗?
简单来说,LRT的核心想法是,用一个轻量级的推理网络,把大模型冗长的“思维链”压缩成一个紧凑的隐式向量。这样一来,模型无需再逐字逐句地“自言自语”生成中间步骤,只需一次前向计算,就能直接得出答案。这不仅效率高,而且作为一种新的混合思考范式,在Qwen3系列模型上的测试表明,其表现甚至超越了模型原生的非思考模式。

出发点:大模型「自言自语」的推理过程真的全都有用吗?
以OpenAI o1、DeepSeek-R1、Qwen QwQ为代表的推理模型,通过生成详尽的逐步推理链来解决复杂问题,能力确实强大。但随之而来的“过度思考”问题也愈发突出:
即便是面对一道简单的数学题,模型也可能生成包含大量回溯、自我验证和冗余步骤的数千个token的推理过程。这些推理轨迹的长度往往远超最终答案本身,导致推理延迟高、计算开销大,严重制约了实时应用。
这就引出了一个根本性问题:这些冗长的推理链,每一部分都是必要的吗?
关键发现:推理轨迹存在大量冗余
为了回答这个问题,研究团队设计了一组巧妙的实验。他们在DeepSeek-R1-Distill-Qwen-7B模型上,尝试对推理轨迹进行不同粒度的“破坏”——随机跳过一定比例的token或推理步骤,然后观察模型能否仅凭这些残缺的推理链给出正确答案。

结果令人惊讶:即使随机丢弃掉高达50%的推理轨迹,模型的准确率也仅仅下降了大约2个百分点。这个发现至少说明了两个问题:
首先,当前模型生成的推理轨迹中,确实包含了远超必要信息的大量冗余。其次,推理模型本身具备强大的信息过滤和总结能力,即使面对不完整、高困惑度的推理链,依然能从中提取关键信息并得出正确结论。
这一发现直接启发了团队的核心思路:既然完整的、逐步展开的推理链并非不可或缺,那么,能否用一种更紧凑的隐式表征来替代它呢?
方法:隐式思考模型 LRT
基于上述洞察,Latent Reasoning Tuning(LRT)框架应运而生。其核心思想可以概括为:训练一个轻量级的推理网络,让它学会将显式的推理链“编码”成固定长度的隐式向量。然后,将这个向量直接“注入”大模型,引导其生成最终答案,从而跳过冗长的中间解码步骤。

如上图所示,传统推理模型需要逐token自回归生成整条推理链,而LRT的流程则简化为三步:
1. 输入编码:将问题输入大模型,提取其隐藏状态表征。
2. 隐式推理:将隐藏状态送入轻量级的推理网络
,经过一次前向传播,生成固定长度的隐式推理向量。
3. 答案生成:将隐式推理向量与问题的编码向量拼接,再送回大模型,直接解码生成最终答案。
从技术上看,对于一个推理型大模型
,给定输入提示
,其生成推理轨迹
再总结出答案
的过程,通常满足
,这正是推理开销的根源。
既然推理轨迹
本质上是输入
和模型参数
的函数
,而实验又证明这个函数输出存在冗余,那么一个自然的想法就是:用一个更高效的函数来近似或替代它。
LRT正是引入了这样一个轻量级推理网络
,让它直接从输入映射到紧凑的隐式推理表征:
。这个固定长度的连续向量序列
,替代了原本需要逐token解码的冗长推理链,从而将耗时的“解码”过程转化为了高效的“预填充”式操作。
在训练策略上,LRT采用了两阶段优化:
第一阶段是监督微调(SFT),优化推理网络参数
,最小化负对数似然损失,目标是让生成的隐式表征能引导冻结的基座模型正确预测答案。

第二阶段则引入了强化学习(采用GRPO方法),以答案的正确性作为奖励信号,激励推理网络在隐式空间中探索更优的推理路径,从而突破训练数据质量的限制。
实验结果
1. 高效思考 —— 在不同Token预算下表现最优

在DeepSeek-R1-Distill-Qwen-1.5B模型上的对比实验显示,LRT在不同Token预算下,于域内和域外任务上全面领先其他高效推理方法。特别是在512-Token的预算下,其平均准确率比无思考模式高出2.66%,比RL类方法ShorterBetter和LC-R1分别高出5.90%和4.74%。
2. 混合思考 —— 超越Qwen3原生混合思考模式

LRT模块化的设计,让它天然适合作为一种新的混合推理范式:遇到简单问题时,使用隐式思考快速作答;面对复杂难题时,再切换回显式的慢思考进行深度推理。在Qwen3系列模型上的验证结果令人印象深刻:
在Qwen3-4B上,LRT的pass@4平均准确率达到71.60%,比Qwen3原生的非思考模式高出5.82个百分点。在GSM8K数学推理数据集上提升近7%,在LSAT逻辑推理数据集上提升更是超过14%。这表明,隐式推理向量能有效引导模型探索更多样、更高质量的解题路径。
3. 推理效率对比

效率方面,LRT的推理延迟显著低于Qwen3的混合思考模式,甚至比非思考模式还要快。这是因为隐式推理向量引导模型生成更简洁的答案,减少了解码步数。
4. 消融实验分析

隐式推理token数量的影响:随着隐式token数量从64增加到256,模型性能稳步提升(从42.53%升至48.42%)。

两阶段训练的作用:加入RL阶段后,域内任务平均提升约9%,域外任务平均提升约4.3%,验证了强化学习对于优化隐式推理的关键作用。

基础模型规模的影响:更大的基础模型(如Qwen3-8B)能够充分利用更多的隐式token(即使使用512个隐式token,性能仍能提高),说明隐式推理的“信息容量”与基础模型的能力呈正相关。
总结
总体来看,隐式思考模型LRT为大模型的高效推理开辟了一条颇具潜力的新路径:
理论层面,它系统性地揭示了推理轨迹中存在的高度冗余,证明了完整的逐步推理链并非正确推理的必要前提。
效率层面,通过将显式推理链压缩为隐式向量,用单次前向计算替代数千步的自回归解码,大幅降低了推理成本。
应用层面,其模块化、即插即用的设计,无需修改大模型本身参数,即可在隐式推理与显式推理之间无缝切换,为构建混合推理系统提供了更优的解决方案。
效果层面,在数学、逻辑、科学等多类基准测试中,LRT全面超越了现有的高效推理方法,并在Qwen3系列模型上实现了对其原生非思考模式的超越。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Claude代码助手插件解决编程中断难题
对于深度依赖Claude Code进行开发的用户而言,最令人沮丧的体验莫过于在终端中“盲开”:你永远无法知晓当前对话的上下文容量还剩多少,只能被动等待系统提示耗尽,导致所有精心构建的对话逻辑和代码成果瞬间归零。 就在近期,一个典型的开发场景几乎让项目进度停滞:在编写一个复杂的批量交互脚本时,与Cla
谷歌Gemma 4大模型本地部署安装配置完全指南
4月3日凌晨,谷歌DeepMind向开源AI社区投下了一枚重磅冲击波:Gemma 4正式发布。 这个拥有310亿参数的模型,性能提升堪称“暴力”。在数学竞赛基准上,它从上一代的20 8%直接跃升至89 2%;编程能力方面,LiveCodeBench得分从29 1%飙升至80%。更关键的是,它采用了A
Linux CUPS打印系统高危漏洞可零点击获取root权限
近日,Linux生态系统中一项基础且至关重要的服务——打印服务CUPS被披露存在高危安全漏洞。根据网络安全媒体cyberkendra的报道,攻击者无需任何身份凭证,即可通过远程方式执行恶意代码,并最终获取系统的最高root权限。 这组漏洞由安全研究员Asim Manizada在人工智能工具的辅助下发
手机运行Gemma 4模型实测与可行性分析
昨天看到一条消息,说有人在 iPhone 17 Pro 上运行 Google 最新发布的 Gemma 4 模型,推理速度超过了每秒 40 个 token。第一反应是:这可能吗? 要知道,Gemma 4 是 Google 在 4 月 2 号刚发布的开源模型家族中的旗舰款。其参数量最大的 31B 版本在
大模型训练合成数据生成的十大实用策略
合成数据,这个曾经被视为“辅助工具”的技术选项,如今正快速演进为驱动大模型开发与迭代的核心基础设施。对于任何致力于长期模型训练、优化和持续升级的团队而言,构建高质量的合成数据能力已成为一项战略性任务。 背后的驱动力非常现实:获取大规模、高质量的训练数据始终是AI团队面临的主要瓶颈。数据或许存在,但面
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

