国产开源模型的代码跑分如何超越GPT-5.1
2026 年开年,国内量化私募九坤投资创始团队旗下的至知研究院(IQuest Research)发布了首代开源代码大模型系列 IQuest-Coder-V1。
这家研究机构声称,其 40B 参数的旗舰模型在 SWE-bench Verified 基准测试中拿下了 81.4%的成绩,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面开源,涵盖 7B、14B、40B 三种参数规模,以及标准版和 Loop 变体。

图丨IQuest-Coder-V1的架构(来源:GitHub)
至知研究院由九坤投资创始团队发起设立,定位为独立于量化投研体系的 AI 研究平台。
九坤本身是国内最早将深度学习大规模应用于量化投资的机构之一,2020 年投资过亿建成 AI 超算集群“北溟”,旗下三大实验室长期从事数据、算法和交易执行研究。继幻方量化孵化出 DeepSeek 之后,这是又一家从量化圈走出来的 AI 研究力量。
IQuest-Coder-V1 技术报告中最值得关注的是 Code-Flow 训练范式对 commit 演化数据的利用。传统代码模型基于静态代码文件训练,相当于让模型看一堆代码快照。IQuest-Coder 的做法不同:它试图让模型学习代码仓库的演化轨迹——不只是代码长什么样,还要学习代码是怎么一步步改出来的。
具体来说,他们为每个代码仓库构建了形如(R_old, P, R_new)的三元组训练数据。R_old 代表项目在某个稳定开发阶段的代码状态,P 是捕捉两个状态差异的 Patch 信息(即 commit 变更),R_new 则是迭代后的新状态。
选取起点时有个讲究:他们避开了项目早期不稳定的探索性代码和后期碎片化的维护性修改,专门聚焦于项目生命周期 40%到 80%区间的“成熟期”。理由是这个阶段的代码库相对稳定,变更模式更能反映真实的软件开发逻辑。
这个思路有一定道理。程序员在修 bug 或加新功能时,脑子里转的不是“这段代码是什么”,而是“这段代码要从什么状态变成什么状态”。
Commit 记录天然包含了这种“变更意图”——为什么改、改了哪里、改完之后整体结构如何调整。如果模型能从大量 commit 历史中学到这种模式,理论上应该比只看静态代码更擅长理解“怎么改代码”。
这也解释了为什么 IQuest-Coder 在 SWE-bench 这类需要生成 patch 修复 issue 的任务上表现突出——任务形式本身就和训练数据的结构高度吻合。技术报告中提到的一个发现印证了这点:仓库演化数据(repository transition data)在任务规划能力上提供了比静态快照更好的训练信号。

图丨研究团队展示的太阳系模拟示例(来源:IQuest Lab)
预训练阶段,IQuest-Coder 先用通用数据和代码数据打底,随后用高质量代码语料进行退火(Annealing)。这部分比较常规。中间训练阶段则分两期进行:他们在 32K 上下文长度下注入了推理数据、Agent 轨迹和代码数据的混合,随后将上下文扩展到 128K,加入仓库级的长序列样本。
Agent 轨迹数据包含完整的“行动-观察-修正”循环——命令执行、日志输出、错误信息、测试结果等环境反馈。技术报告的说法是,推理数据提供符号层面的逻辑脚手架,Agent 轨迹则提供“闭环智能”,让模型学会根据环境反馈调整行为。他们声称在高质量代码退火之后、后训练之前注入这类数据,能在分布偏移下稳定模型性能。
后训练阶段分成两条路径:Thinking 路径先用包含显式推理轨迹的数据做监督微调,再用强化学习优化推理能力;Instruct 路径则用通用和代码指令数据做监督微调,再用 RL 增强指令遵循能力。
技术报告声称,Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。换言之,RL 可能是解锁代码模型“自主调试”能力的关键。

图丨训练流程(来源:GitHub)
架构方面,Loop 变体的设计比较有意思。LoopCoder 采用循环 Transformer 架构,让参数共享的 Transformer 块执行两次固定迭代。第一次迭代正常处理输入嵌入,第二次迭代同时计算两种注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 对)和局部注意力(维持因果性的常规自注意力)。
两种注意力的输出通过一个基于 query 表示的学习门控机制加权混合。这种设计的目的是在有限参数规模下获得更高的有效计算深度,即用参数共享换取更多计算步骤,在部署效率和模型能力之间找平衡。
后训练的 Thinking 路径也值得一提。技术报告声称,通过强化学习训练的 Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。如果属实,这意味着 RL 可能是解锁代码模型“自主调试”能力的关键,模型不只是生成代码,还能在出错后自我修正。
根据技术报告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解决率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函数调用排行榜)V3 上达到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上达到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成绩是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分别达到 98.5%和 99.4%。

图丨基准测试结果(来源:IQuest-Coder-V1)
当然,SWE-bench Verified 只覆盖 Python 且仅含 500 个样本,社区对“针对榜单优化”的担忧一直存在。其在实际使用中的表现如何,有待社区的进一步测试反馈。
从技术贡献看,IQuest-Coder-V1 最有价值的部分可能是对 commit 演化数据的系统性利用。这个方向此前在学术界有过探索,但在开源模型的大规模训练中应用得并不多。技术报告承诺会开源完整训练流程和中间检查点,这对研究代码模型如何学习软件工程能力将是有价值的参考。至于跑分能否转化为实际生产力,要等更多开发者上手实测才能下结论。
参考资料:
1. https://iquestlab.github.io/#/
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
九号鼹鼠自平衡20与同频双闪技术首发引领两轮智能出行新阶段
九号公司发布鼹鼠自平衡2 0与同频双闪两项核心技术。前者通过算法与系统协同实现车辆自主平衡,提升低速与驻停时的操控便利与安全;后者基于统一授时与软总线架构,实现多车灯光精准同步,增强车队辨识与协同体验。两项技术体现了九号在底层智能架构上的系统突破,推动两轮出
贾跃亭机器人获23台订单 北美红杉教育买家身份引关注
法拉第未来宣布与北美红杉教育达成合作,销售23台机器人并开展课程开发等合作,称其为最大单笔订单。但买方信息模糊,公开渠道难以核实该教育机构背景。此前FF多次公布类似匿名订单,加之其汽车业务交付量远低于宣传数据,市场对其机器人业务进展的真实性存疑。
思特威与紫光展锐合作布局MicroLED高速光互连技术
思特威与紫光展锐达成战略合作,共同研发MicroLED高速光互连方案。该方案旨在解决AI算力集群短距数据传输的瓶颈,通过并行光通道显著降低功耗,提升集成度。双方将结合光电技术与高速接口优势,推动国产方案在数据中心、智能驾驶等场景的应用,助力产业生态构建与技术自主。
滴滴出行系统故障用户无法正常使用行程与订单功能
今天,不少用户在社交平台反馈,滴滴出行App疑似出现系统故障,导致行程管理与支付功能受到影响。许多乘客和司机都遇到了操作异常的情况。 根据多方用户描述,此次滴滴系统问题主要表现为以下几种情形:部分用户无法正常发起行程;司机接单后,订单状态长时间卡在“进行中”,无法顺利结束;也有乘客反映尝试取消订单时
7-Eleven便利店用户数据泄露 超18万人信息遭黑客窃取
便利店巨头7-Eleven遭黑客团伙ShinyHunters攻击,超过18 3万名用户个人信息泄露。黑客通过入侵其Salesforce环境窃取数据,因勒索未果将9 4GB数据包公开。泄露信息包含姓名、住址、电话等敏感内容。此前该公司亦曾遭遇类似安全事件,网络安全防护亟待加强。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

