面包屑图标 当前位置: 首页
AI资讯
热点详情

B模型LoopCoder v2称大模型循环一次就够

AI热点日报
AI热点日报时间:2026-07-01
热点解读

当所有人都在卷“多循环几遍”,这个7B小模型却说:一遍就够了 眼下大模型圈最火热的技术路线是什么?答案几乎不言而喻——循环推理。从o1到Claude,推理模型往往生成成千上万个思考token,循环式架构恨不得在内部反复迭代十几次。似乎所有人都默认了一个假设:思考时间越长,输出质量越高。 但一项新研究

当所有人都在卷“多循环几遍”,这个7B小模型却说:一遍就够了

眼下大模型圈最火热的技术路线是什么?答案几乎不言而喻——循环推理。从o1到Claude,推理模型往往生成成千上万个思考token,循环式架构恨不得在内部反复迭代十几次。似乎所有人都默认了一个假设:思考时间越长,输出质量越高。

但一项新研究给出了令人意外的数据:一个仅7B参数的小型模型,只需在常规计算之外“多循环一次”(总共两遍),就能在公认最具挑战的真实代码修复基准SWE-bench Verified上从43.0分跃升至64.4分。而继续增加循环次数——不仅没有提升,反而一路下滑。

论文标题非常简洁——《Only Loop Once》,只循环一次。这项研究由北京航空航天大学、IQuest Research、澜舟科技和中国人民大学联合团队共同完成。

都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

  • 论文标题:LoopCoder-v2:Only Loop Once for Efficient Test-Time Computation Scaling
  • 论文地址:https://arxiv.org/pdf/2606.18023
  • 研究团队:北京航空航天大学 · IQuest Research · 澜舟科技 · 中国人民大学
  • 模型主页(HuggingFace):huggingface.co/Multilingual-Multimodal-NLP/LoopCoder-V2

都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

▲ 核心结论一图总结:多循环带来“精修收益”,同时也带来几乎固定的“位置错配成本”;收益在第2次循环达到峰值后迅速衰减,因此“只循环一次(共2次)”成为最优选择。

一、“循环”,当下最火的竞赛方向

自从o1、Claude这类推理模型将“思考时间越长越强”写入行业共识,“测试时计算”(test-time compute)就成了过去一年最受关注的方向:与其把模型训练得更大,不如在推理阶段多投入算力,反复打磨答案。要理解这项研究,首先需要了解业界具体在竞争什么。

过去想让模型更强,常规做法是堆叠更多网络层、增加参数量。而“循环式”大模型(Looped / Recurrent-depth LLM)则采用了不同思路:不增加新层,而是让同一套参数在“内部”反复优化隐藏表征。打个比方,这就像同一个人把一道题在心中默默重算几遍,而不是请来更多人或者写满草稿纸——这是一种节省参数量的“测试时计算”方法。

听起来很诱人,但有一个硬伤:顺序循环成本太高。每多循环一次,就要多执行一遍计算流程,延迟和KV-cache显存都会随循环次数线性增长。想增加循环,算力却扛不住。

并行循环Transformer(Parallel Loop Transformer,PLT)正是为解决这个问题而生。它通过两项技术压低了成本:一是CLP(跨循环位置偏移),打破循环之间的串行依赖,使多次循环可以并行计算;二是G-SWA(共享KV的门控滑窗注意力),让显存几乎不随循环次数增长。在成本被压制后,“循环几次”第一次变成可以自由调节的参数。

二、参数调大 ≠ 更强:第2遍封顶,第3遍下滑

问题来了:这个参数,到底调到多少合适?

团队直接从头训练了一整个系列:7B密集模型,18T token、文本与代码1:1、覆盖100多种编程语言,前后消耗约100万GPU小时。唯一的变量就是循环次数。结果非常反直觉:

都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

多循环一次(共2次)几乎全面超过了“不循环”的基线——SWE-bench Verified从43.0提升到64.4,多语言版从14.0跃升至31.0,LiveCodeBench从27.4提高到35.4,十项基准平均分从38.0升至46.5。但循环到3次、4次后,性能直接下滑:SWE-bench跌至27.6、22.4,平均分甚至不如不循环。

更说明问题的是横向对比:这个7B、仅多循环一次的模型,在SWE-bench Verified上获得64.4分,超过了2350亿参数的Qwen3-235B(45.2分),逼近Kimi-K2(69.2)、Qwen3-Coder-480B(67.0)等大它几十倍的开源旗舰。在偏重“动手操作”的agentic任务上提升尤其显著:终端操作基准Terminal-Bench两个版本分别从26.3涨到34.2、11.2涨到21.0(后者接近翻倍),工具调用BFCL从32.2升至40.1,提升幅度相当可观。换句话说,这次性能飞跃不是靠更大的模型规模实现的,而是靠“多想了一遍”。

三、为什么“多循环一次”就够?一笔收益成本账

真正有价值的是,团队没有停留在“2次最优”这个调参结论上,而是深入模型内部,计算了一笔“收益—成本”账。

先看收益侧。研究者使用三把“探针”——隐状态演化、注意力路由、输出分布变化——同步观察每次循环究竟做了什么,只有三者一致时才下结论。结论是:第2次循环几乎承担了所有“有用的精修”——隐状态朝同一方向稳步收敛、注意力重新分配、输出分布明显改善,表征多样性(effective rank)也在这一步达到峰值。再往后,更新幅度越来越小,甚至开始来回震荡(方向反转),注意力路由基本“冻结”,后续循环近乎空转。

再看成本侧。CLP为了让循环能够并行,采用了一个巧妙设计:从第2次循环起,每个token获取的是“邻居”上一轮的状态,而不是它自己的。这就引入了一个固定的“位置错配税”——团队将其量化为一个能从模型内部状态直接计算的指标Ω,并发现它在每次循环中几乎恒定不变。

都在卷「让大模型多循环几遍」,这个7B模型LoopCoder v2说:多循环 1 次就够了

▲ 蓝线是每次循环的“精修收益”,第2次之后急剧下降;红线是CLP的“位置错配成本”,几乎恒定不降。一涨一平之间,第2次循环成为最优平衡点。

两条曲线一对比,故事就很清晰了:精修收益(蓝线)在第2次循环后崩塌,再也没能恢复;而错配成本(红线)始终保持在高位。收益递减、成本恒定,因此超过2次,错配的代价就超过了精修的收益,性能自然掉头向下。这也意味着,“循环到几次最优”不必依赖昂贵的暴力扫描benchmark逐一尝试,而可以通过这些内部诊断指标提前判断。

四、对行业意味着什么

这项工作的价值,不仅仅是又训练了一个性能强劲的代码模型。

它首先给“测试时计算 = 越多越好”的流行直觉敲响了警钟:至少对于PLT这类并行循环架构,存在一个明确且偏低的“甜点”,盲目增加循环反而产生负收益。其次,它提供了一套不依靠暴力实验、而是借助可解释性指标来选择循环次数的诊断方法。最后,这对端侧和小型模型尤其友好——7B模型只需多循环一次,就可在硬核的真实软件工程任务上实现越级,这笔效率账相当划算。

团队也指出了几个值得继续探索的方向:让位置偏移变得自适应、根据任务动态分配循环次数,以及搞清楚这种“内部循环”与模型显式写出的思维链(CoT)之间究竟如何协同。

总而言之,在这个比拼“谁算得更多”的时代,这篇论文给出的提醒朴素而扎实:有时候,多想一遍就够了,想太多反而适得其反。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:B模型LoopCoder v2称大模型循环一次就够要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.aitntnews.com/newDetail.html?newId=26737
Loop

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 13:12
谷歌提示词比赛亚军:把AI当同事而非机器

与AI高效协作这件事,最近有个挺有意思的切入点——谷歌和瑞士邮政旗下的Digitalidag联合办了一场提示词比赛,让选手们编写指令,比如让AI制定一份详细的学习计划。亚军得主Joakim Jardenberg赛后接受了专访,分享了不少实操心得。下面这几个核心判断,值得每一位与AI共事的人反复琢磨。

AI热点2026-07-02 13:12
瓴盛打造核心平台与产业生态,加速AIoT场景落地

物联网已成为继智能手机热潮之后,半导体芯片领域最大的应用增长引擎。根据IDC的市场分析报告,中国物联网市场规模增长潜力巨大,预计2022年将超越美国,成为全球最大的物联网市场,占据世界物联网总规模的四分之一以上。按照这一趋势推算,到2025年中国物联网市场规模至少将达到3918亿美元。物联网的核心应

AI热点2026-07-02 13:11
人工智能大模型检索增强生成框架Dify深度解析

在生成式AI技术迅猛发展的背景下,Dify作为一款面向开发者的开源大语言模型应用开发平台,正在深刻改变AI应用的构建方式。它诞生于2023年前后,核心目标非常明确:通过低代码化与模块化设计,使开发者无需从零搭建复杂架构,即可快速部署生产级AI应用。随着大语言模型(LLM)技术的普及,Dify逐渐成为

AI热点2026-07-02 13:11
循序渐进构建MCP服务器教程

这次咱们来拆解一个实际项目:如何基于 TypeScript 构建一个完整的 MCP 服务器。别担心,整个过程会一步步拆开揉碎了讲,从环境搭建到代码实现,再到集成 Claude Desktop 进行测试,一条龙说清楚。 为了不让这个教程显得太干,我们会用一个非常接地气的场景——**天气查询服务**——

延伸阅读