南京大学团队揭秘大模型编程竞赛持续进步的核心方法

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

南京大学团队揭秘大模型编程竞赛持续进步的核心方法

热心网友时间：2026-05-24

转载

近期，一项由南京大学联合清华大学等顶尖科研机构共同完成的研究，在AI编程领域取得了突破性进展。这项于2026年5月正式发表的研究（论文编号arXiv:2605.15301v1），提出了一个名为Solvita的创新性框架。其核心目标在于，赋能大型语言模型（LLM）应对编程竞赛等高难度推理任务时，能够像人类程序员一样，通过持续积累和复用经验实现自我进化，而非每次面对问题都“从零开始”。

要深入理解这项研究的价值，需从一个长期困扰AI编程领域的核心痛点切入。当前，大语言模型在通用代码生成方面已表现出色，然而一旦遭遇需要严密逻辑与算法设计的编程竞赛题（即“算法题”），其根本性缺陷便暴露无遗：缺乏记忆与经验复用能力。每次解题都如同初次尝试，过往的错误、教训与成功技巧均无法沉淀。这好比一位厨师每日都需重新学习“如何煎蛋”，永远无法晋升为真正的主厨。

研究团队的核心思路，是为这些“AI厨师”配备一本能够自动更新与优化的“智能经验食谱”。让模型在每次解题、纠错或发现新技巧后，都能将经验结构化存储，并在未来遇到相似场景时精准调用。最关键的是，这一过程无需重新训练庞大的基础模型参数——正如无需对厨师进行脑部手术，只需赋予他一本越用越聪明的笔记本。

一、四位智能体协同的“侦探团”模式

理解Solvita工作机制的最佳方式，是将其视为一个由四位各司其职的“侦探”组成的团队，共同破解编程谜题。每位侦探不仅拥有独特技能，还共享一本能够自动记录与关联线索的“智能笔记本”。

首位侦探是“策划者”。其职责是在接到问题后，剥离复杂的描述性背景，将问题抽象为最本质的数学模型或算法范式。例如，将“小明在迷宫中寻找糖果”转化为“在二维网格中求解最短路径问题”。同时，策划者会初步推断解题可能涉及的算法类别（如动态规划、图论搜索等），这类似于资深侦探快速定位案件类型并调用相关办案经验库。

紧接着是“求解者”，负责实际编写代码。但其工作模式独具特色：当首次编写的代码存在缺陷时，它并非全盘推翻重写，而是采用一种“搜索-替换补丁”的精准修复策略，仅定位并修改出错的具体代码行。这种方法的优势在于，能够最大限度地保留已正确的代码段，有效避免“修复一个Bug，引入多个新Bug”的恶性循环。

第三位侦探“神谕者”扮演着关键的质量检验官角色。其任务是为求解者生成的代码创建一套高可靠性的内部测试集。这要求测试用例本身必须正确无误。神谕者通过一个严谨的四步流程（包括独立编写参考解、交叉验证答案、设定认证通过阈值等）来确保测试集的质量，防止因错误测试而误导求解过程。

最后一位是“破解者”，其角色类似于“红队”或攻击者，专门致力于寻找代码中的潜在漏洞。当前三位侦探产出一个看似完美的解决方案后，破解者会启动其攻击引擎，运用三种策略进行压力测试：构造极端边界用例、生成大规模输入进行负载测试、或针对特定算法（如哈希）实施碰撞攻击。这好比产品质量检测员，以各种非常规方式尝试“破坏”产品以暴露其脆弱点。

该体系最精妙之处在于四者间的动态联动。一旦破解者发现漏洞，该失败信号会同步反馈给其他三位成员：策划者更新策略评估，求解者记录此类错误模式，神谕者学习生成更具针对性的测试。一次失败，全员学习，经验得以高效共享与沉淀。

二、基于图结构的可进化知识网络

那本“自动更新的智能食谱”究竟是何物？这正是Solvita框架的核心创新。研究团队摒弃了传统的“文档检索”式经验复用（即简单检索相似历史问题并拼接至提示词），因为这种方法存在“相似不等于有效”的根本缺陷，甚至可能产生误导。

取而代之的，是一个为每位侦探智能体独立构建的、基于图结构的动态知识网络。可以将其想象为一个不断生长和强化的“经验关系图谱”，包含三层节点：顶层的“问题节点”存储历史题目特征；中层的“方法节点”记录解题思路的拆解，尤其注重将正确解法与典型错误解法进行配对，并明确标注关键决策分歧点；底层的“技能节点”存储可复用的算法模板和代码片段。

节点之间通过带权重的边进行连接，权重高低代表了“沿此路径成功解题”的概率估值。当AI面对新问题时，系统首先在图谱中检索结构最相似的若干历史问题节点，随后沿着连接边“激活”相关联的方法与技能节点，并综合各路径权重进行打分，最终决策调用哪些历史经验最为有效。

最关键的是，这些连接边的权重并非固定不变，而是会根据每次解题的结果进行自适应调整。若某条路径辅助解题成功，其关联边的权重便会增强；若导致失败，权重则会减弱甚至断开。这一学习过程采用了强化学习中的REINFORCE算法，并引入了一个巧妙变体：系统会让AI对同一题目进行两次求解——一次借助知识网络，一次完全自主——然后以两次结果的性能差异作为奖励信号。这种“对照实验”机制能精确评估知识网络的实际贡献，避免将AI自身能力误判为网络辅助的功劳。

此外，知识网络具备自主生长能力。当AI两次均解题正确，表明该问题已被掌握，无需新增节点；当两次均失败，系统会生成一个新的“对比方法节点”，将此次错误解法与语料库中最接近的正确解法配对存储；当结果一正一反时，则直接保存正误两种思路的配对。这种生长机制确保了知识网络的扩展精准聚焦于AI当前的薄弱环节，实现高效的经验积累。

三、神谕者与破解者：互补的测试验证双翼

研究发现，神谕者与破解者虽然都涉及测试验证，但其擅长的算法领域呈现出显著的互补特性。

神谕者的策略侧重于提供可靠的确定性验证。它擅长运用动态规划、搜索、枚举等能够独立计算出精确标准答案的方法，进而与待测代码的输出进行比对。其在动态规划、图论、数学、字符串处理等具有明确答案的领域表现尤为突出。

而破解者的策略则聚焦于揭露代码中的潜在缺陷与边界情况。它擅长通过复杂度攻击、构造特殊数据结构陷阱、寻找极端输入条件等方式，暴露代码的隐藏漏洞。其在压力测试、检验器设计、图论、动态规划及字符串等易于隐藏边界错误的领域作用显著。

形象地说，神谕者如同一位严谨的阅卷老师，确保答案符合标准；而破解者则像一位经验丰富的出题人，专门设计用于区分理解深度的挑战性题目。二者相辅相成，共同构成了更全面的代码质量保障体系。

四、补丁修复与完全重写的效能对比

研究团队重点比较了两种代码修复策略。传统“完全重写”方式在发现Bug后要求AI重新生成全部代码，看似彻底，实则容易引入新错误且计算开销巨大。

Solvita采用的“补丁修复”方式则类似于对代码进行“微创手术”。当某个测试用例失败时，系统首先定位失败根源，随后仅针对出问题的少数几行代码生成“搜索-替换”指令。每个补丁都必须通过一个严格验证：所有先前已通过的测试用例在应用补丁后必须依然全部通过，否则该补丁将被拒绝。

实验数据有力地证明了补丁修复的优势。在CodeContests基准测试上，使用GPT-5.4作为底层模型时，完全重写方式的解题率为75.76%，平均需迭代5.18次；而补丁修复方式将解题率提升至82.42%，且平均迭代次数降至3.74次。更为关键的是，补丁方式节省了高达91.2%的Token消耗。在APPS和AetherCode等更大规模测试集上，补丁修复同样保持了全面领先。

五、权威基准测试中的卓越表现

研究团队在多个权威编程基准上对Solvita进行了全面评估，结果令人瞩目。在公认高难度的CodeContests测试集上，以GPT-5.4为底层模型，单次生成的基线解题率仅为40.0%，而Solvita将其大幅提升至82.4%，性能翻倍。在更大规模的APPS测试集上，从37.9%提升至67.7%；在最新发布的、更具挑战性的AetherCode测试集上，从18.0%提升至49.25%。

更换其他主流大模型作为底层时，提升同样显著：Claude Opus 4.6从44.85%升至80.61%，Qwen3.6从33.94%升至69.70%，DeepSeek V4 Pro从47.27%升至89.09%，Grok从38.18%升至78.18%。这种跨模型的稳定提升表明，Solvita是一套普适性强的增强方法论，而非针对特定模型的优化技巧。

在与现有主流多智能体编程框架的对比中，Solvita同样占据优势。相较于AlphaCodium、MapCoder等开源框架，以及Codex CLI、Claude Code等商业产品，Solvita在15个测试组合（5种模型×3个基准）中赢得了14项第一。唯一的例外出现在AetherCode上使用Claude Opus 4.6时，而这恰好是Claude Code的“主场”。

在计算成本方面，Solvita同样表现出色。其Token消耗水平与开源框架相当，并远低于商业CLI工具。例如，在GPT-5.4模型下，Codex CLI平均每题消耗21万Token，Claude Code消耗19.8万Token，而Solvita仅消耗15.1万Token，实现了在性能领先的同时兼具成本效益。

六、Codeforces真实竞赛环境验证

为评估框架在真实场景下的能力，研究团队让Solvita参与了实际的Codeforces编程竞赛。Codeforces是全球最权威的在线编程竞赛平台之一，其规则严格：必须在规定时间限制内解题，超时无法提交，与人类选手参赛条件完全相同。

研究选取了Solvita训练截止时间后的连续12场比赛，共计76道题目。结果显示，搭载三种不同底层模型（GPT-5.4、DeepSeek V4 Pro、Claude Opus 4.6）的Solvita版本，均在12轮比赛内达到了3000分以上的“传奇大师”评级。而相同的三个基础模型在没有Solvita加持时，最高评级仅停留在2700-2850分的“大师”级别。

更值得注意的是其稳定性。三个Solvita版本在第6轮比赛后的分数差异控制在80分以内，而基础模型版本的分数差异高达140分。这进一步证明，Solvita带来的能力提升具有可迁移性和鲁棒性，不依赖于特定模型。

七、框架组件贡献度分析

通过详细的消融实验，研究团队剖析了Solvita各个组件的贡献。结果显示，仅从单次生成升级到多智能体协作框架（即使知识网络为空），就已将GPT-5.4在CodeContests上的解题率从40.0%提升至67.7%。这证明了四位侦探协同工作的架构本身即带来巨大增益。

随后，在5318道训练题上分三个阶段观察知识网络的成长效应。求解者的知识网络贡献最大，单独引入可带来约8个百分点的提升；破解者与神谕者的知识网络各贡献2-4个百分点。当三个知识网络全部启用并充分训练后，最终解题率达到82.4%。

值得注意的是，每个知识网络在三个训练阶段的得分均呈现稳步上升趋势，这证实了AI确实在进行持续性的经验学习。完整系统的最终性能超越任何单一网络的贡献之和，表明各组件间存在显著的协同效应，实现了“1+1>2”的效果。

八、代码诊断能力的精细评估

研究团队专门评估了神谕者与破解者的代码诊断精度。他们使用一批已知正确性标签的代码进行测试，考察这两个组件能否准确识别错误代码并保留正确代码。

单独的神谕者偏向保守，能完好保留96%以上的正确代码，但仅能识别76-82%的错误代码——它会遗漏一些需通过对抗性输入才能暴露的隐蔽Bug。单独的破解者更为激进，能识别83-88%的错误代码，但会误判9-10%的正确代码。两者联合使用时达到了最佳平衡：错误代码识别率提升至88-93%，同时正确代码保留率维持在94-96%。

尤为引人注目的是“更强测试”率指标，即Solvita拒绝了某些被现有测试判为正确、但经严格人工验证后发现确实存在隐藏问题的代码。在使用最强的Claude Opus 4.6模型时，这一比例达到19.6%，意味着Solvita的诊断能力在某些情况下甚至超越了现有测试集。

九、错误类型分析揭示系统性提升

通过对错误类型的细致分类分析，研究揭示了Solvita带来的全方位改进。在CodeContests测试集上：算法逻辑错误率从24.8%降至6.7%，边界情况错误从11.5%降至4.2%，超时错误从9.1%降至3.0%，内存超限错误从4.8%降至1.2%，运行时错误从9.7%降至2.4%。

这种全类型的错误率下降表明，Solvita并非针对单一弱点进行优化，而是系统性地提升了AI生成代码的整体质量与鲁棒性，覆盖了从算法设计、题意理解到性能与稳定性的各个维度。

十、研究局限与未来展望

研究团队也客观指出了Solvita当前存在的几点局限。首先是冷启动成本：系统初期需要约5000道训练题来构建有效的知识网络，导致单题初始成本高于直接生成。其次是破解者的能力边界：对于涉及深度数学推理（如数论恒等式、几何精度）的问题，受限于底层模型的推理能力，破解者可能难以构造有效攻击。第三是补丁修复的“漂移”风险：当代码存在系统性缺陷时，AI可能误判为局部问题，通过一系列小补丁的累积导致代码状态不一致。

这些局限也指明了未来的研究方向。团队提出，可利用开源编程经验语料库（如最新题解、已通过提交、调试日志）对知识网络进行“热启动”，缩短冷启动周期。同样的四智能体架构有望迁移至形式化定理证明、数学奥林匹克、科学计算等其他可验证的推理领域。此外，破解者产生的精细对抗信号，或可作为微调底层模型的训练数据，将知识网络层面的学习进一步深化至模型参数层面。

归根结底，这项研究最引人入胜之处在于，它开辟了一条让AI在不改变其核心参数的前提下，通过外部“经验记忆体”实现持续学习与进化的新路径。若此思路得以推广，或许我们无需频繁耗费巨资训练全新模型，而是让现有模型在使用中变得越来越“聪明”。这无疑更贴近人类的学习本质——大脑结构基本稳定，但经验与技能却在不断累积增长。

Q&A

Q1：Solvita框架是什么，它和传统的AI编程方式有什么不同？

Solvita是由南京大学等机构研发的一个用于提升大语言模型解决编程竞赛问题能力的多智能体框架。它由策划者、求解者、神谕者、破解者四个协同工作的AI智能体构成，每个智能体均配备可自主进化的知识网络。与传统单次生成或简单检索增强的方式不同，Solvita能够将每次解题的成功与失败经验转化为知识网络中的结构化记忆，并通过权重调整实现持续学习，让AI越用越强。在CodeContests基准测试中，它将GPT-5.4的解题成功率从40%显著提升至82.4%。

Q2：Solvita里的破解者智能体是做什么的，为什么需要它？

破解者智能体扮演“红队”或攻击者角色，专门负责寻找其他智能体所编写代码中的潜在漏洞与缺陷。它主要通过三种策略工作：构造极端边界用例、生成大规模数据进行压力测试、针对特定算法（如哈希）实施碰撞攻击。引入破解者的必要性在于，仅依靠正向的测试验证不足以全面保障代码质量，必须通过主动的、对抗性的测试才能暴露那些隐蔽的、在常规输入下不会触发的深层Bug。破解者发现的每个漏洞都会作为关键反馈，同步更新其他三个智能体的知识网络，实现一次失败、全员学习。

Q3：Solvita采用的补丁修复方式相比完全重写代码有什么优势？

补丁修复是一种精准的代码修正策略，它仅定位并修改出错的特定代码行，如同进行“微创手术”；而完全重写则是将整个代码推倒重来。实验数据清晰展示了补丁修复的优势：在GPT-5.4模型与CodeContests测试集上，补丁方式实现了82.42%的解题率，平均仅需3.74次迭代；而完全重写方式解题率为75.76%，平均需要5.18次迭代。此外，补丁方式节省了高达91.2%的Token消耗。其核心优势在于能够保留已验证正确的代码部分，严格避免“修复一个Bug引入多个新Bug”的风险，并且每次修改都必须通过所有已有测试的回归验证，确保了代码修改的稳定性与安全性。

来源:https://www.163.com/dy/article/KTIJQ0290511DTVV.html

上一篇： Moonix AI眼镜仅重149克诠释极简硬件设计理念

下一篇： MOVA驭风者无人机如何打破吉尼斯纪录并快速进入表演市场