数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

B模型LoopCoder v2称大模型循环一次就够

AI热点日报时间：2026-07-01

热点解读

当所有人都在卷“多循环几遍”，这个7B小模型却说：一遍就够了眼下大模型圈最火热的技术路线是什么？答案几乎不言而喻——循环推理。从o1到Claude，推理模型往往生成成千上万个思考token，循环式架构恨不得在内部反复迭代十几次。似乎所有人都默认了一个假设：思考时间越长，输出质量越高。但一项新研究

当所有人都在卷“多循环几遍”，这个7B小模型却说：一遍就够了

眼下大模型圈最火热的技术路线是什么？答案几乎不言而喻——循环推理。从o1到Claude，推理模型往往生成成千上万个思考token，循环式架构恨不得在内部反复迭代十几次。似乎所有人都默认了一个假设：思考时间越长，输出质量越高。

但一项新研究给出了令人意外的数据：一个仅7B参数的小型模型，只需在常规计算之外“多循环一次”（总共两遍），就能在公认最具挑战的真实代码修复基准SWE-bench Verified上从43.0分跃升至64.4分。而继续增加循环次数——不仅没有提升，反而一路下滑。

论文标题非常简洁——《Only Loop Once》，只循环一次。这项研究由北京航空航天大学、IQuest Research、澜舟科技和中国人民大学联合团队共同完成。

都在卷「让大模型多循环几遍」，这个7B模型LoopCoder v2说：多循环 1 次就够了

论文标题：LoopCoder-v2：Only Loop Once for Efficient Test-Time Computation Scaling
论文地址：https://arxiv.org/pdf/2606.18023
研究团队：北京航空航天大学 · IQuest Research · 澜舟科技 · 中国人民大学
模型主页（HuggingFace）：huggingface.co/Multilingual-Multimodal-NLP/LoopCoder-V2

都在卷「让大模型多循环几遍」，这个7B模型LoopCoder v2说：多循环 1 次就够了

▲ 核心结论一图总结：多循环带来“精修收益”，同时也带来几乎固定的“位置错配成本”；收益在第2次循环达到峰值后迅速衰减，因此“只循环一次（共2次）”成为最优选择。

一、“循环”，当下最火的竞赛方向

自从o1、Claude这类推理模型将“思考时间越长越强”写入行业共识，“测试时计算”（test-time compute）就成了过去一年最受关注的方向：与其把模型训练得更大，不如在推理阶段多投入算力，反复打磨答案。要理解这项研究，首先需要了解业界具体在竞争什么。

过去想让模型更强，常规做法是堆叠更多网络层、增加参数量。而“循环式”大模型（Looped / Recurrent-depth LLM）则采用了不同思路：不增加新层，而是让同一套参数在“内部”反复优化隐藏表征。打个比方，这就像同一个人把一道题在心中默默重算几遍，而不是请来更多人或者写满草稿纸——这是一种节省参数量的“测试时计算”方法。

听起来很诱人，但有一个硬伤：顺序循环成本太高。每多循环一次，就要多执行一遍计算流程，延迟和KV-cache显存都会随循环次数线性增长。想增加循环，算力却扛不住。

并行循环Transformer（Parallel Loop Transformer，PLT）正是为解决这个问题而生。它通过两项技术压低了成本：一是CLP（跨循环位置偏移），打破循环之间的串行依赖，使多次循环可以并行计算；二是G-SWA（共享KV的门控滑窗注意力），让显存几乎不随循环次数增长。在成本被压制后，“循环几次”第一次变成可以自由调节的参数。

二、参数调大 ≠ 更强：第2遍封顶，第3遍下滑

问题来了：这个参数，到底调到多少合适？

团队直接从头训练了一整个系列：7B密集模型，18T token、文本与代码1:1、覆盖100多种编程语言，前后消耗约100万GPU小时。唯一的变量就是循环次数。结果非常反直觉：

都在卷「让大模型多循环几遍」，这个7B模型LoopCoder v2说：多循环 1 次就够了

多循环一次（共2次）几乎全面超过了“不循环”的基线——SWE-bench Verified从43.0提升到64.4，多语言版从14.0跃升至31.0，LiveCodeBench从27.4提高到35.4，十项基准平均分从38.0升至46.5。但循环到3次、4次后，性能直接下滑：SWE-bench跌至27.6、22.4，平均分甚至不如不循环。

更说明问题的是横向对比：这个7B、仅多循环一次的模型，在SWE-bench Verified上获得64.4分，超过了2350亿参数的Qwen3-235B（45.2分），逼近Kimi-K2（69.2）、Qwen3-Coder-480B（67.0）等大它几十倍的开源旗舰。在偏重“动手操作”的agentic任务上提升尤其显著：终端操作基准Terminal-Bench两个版本分别从26.3涨到34.2、11.2涨到21.0（后者接近翻倍），工具调用BFCL从32.2升至40.1，提升幅度相当可观。换句话说，这次性能飞跃不是靠更大的模型规模实现的，而是靠“多想了一遍”。

三、为什么“多循环一次”就够？一笔收益成本账

真正有价值的是，团队没有停留在“2次最优”这个调参结论上，而是深入模型内部，计算了一笔“收益—成本”账。

先看收益侧。研究者使用三把“探针”——隐状态演化、注意力路由、输出分布变化——同步观察每次循环究竟做了什么，只有三者一致时才下结论。结论是：第2次循环几乎承担了所有“有用的精修”——隐状态朝同一方向稳步收敛、注意力重新分配、输出分布明显改善，表征多样性（effective rank）也在这一步达到峰值。再往后，更新幅度越来越小，甚至开始来回震荡（方向反转），注意力路由基本“冻结”，后续循环近乎空转。

再看成本侧。CLP为了让循环能够并行，采用了一个巧妙设计：从第2次循环起，每个token获取的是“邻居”上一轮的状态，而不是它自己的。这就引入了一个固定的“位置错配税”——团队将其量化为一个能从模型内部状态直接计算的指标Ω，并发现它在每次循环中几乎恒定不变。

都在卷「让大模型多循环几遍」，这个7B模型LoopCoder v2说：多循环 1 次就够了

▲ 蓝线是每次循环的“精修收益”，第2次之后急剧下降；红线是CLP的“位置错配成本”，几乎恒定不降。一涨一平之间，第2次循环成为最优平衡点。

两条曲线一对比，故事就很清晰了：精修收益（蓝线）在第2次循环后崩塌，再也没能恢复；而错配成本（红线）始终保持在高位。收益递减、成本恒定，因此超过2次，错配的代价就超过了精修的收益，性能自然掉头向下。这也意味着，“循环到几次最优”不必依赖昂贵的暴力扫描benchmark逐一尝试，而可以通过这些内部诊断指标提前判断。

四、对行业意味着什么

这项工作的价值，不仅仅是又训练了一个性能强劲的代码模型。

它首先给“测试时计算 = 越多越好”的流行直觉敲响了警钟：至少对于PLT这类并行循环架构，存在一个明确且偏低的“甜点”，盲目增加循环反而产生负收益。其次，它提供了一套不依靠暴力实验、而是借助可解释性指标来选择循环次数的诊断方法。最后，这对端侧和小型模型尤其友好——7B模型只需多循环一次，就可在硬核的真实软件工程任务上实现越级，这笔效率账相当划算。

团队也指出了几个值得继续探索的方向：让位置偏移变得自适应、根据任务动态分配循环次数，以及搞清楚这种“内部循环”与模型显式写出的思维链（CoT）之间究竟如何协同。

总而言之，在这个比拼“谁算得更多”的时代，这篇论文给出的提醒朴素而扎实：有时候，多想一遍就够了，想太多反而适得其反。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：B模型LoopCoder v2称大模型循环一次就够要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.aitntnews.com/newDetail.html?newId=26737

Loop

上一篇：清华发布智能体社会第二代助力社会科学研究加速

下一篇：优必选周剑：机器人将取代手机成AI核心交互终端

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。