复旦自进化工程让GPT5.4性能再提升7%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

复旦自进化工程让GPT5.4性能再提升7%

热心网友时间：2026-05-20

转载

2026年，人工智能领域的一个关键趋势日益凸显：OpenAI、Anthropic、LangChain等行业领导者纷纷将目光投向“Harness Engineering”（智能体框架工程）。随着OpenClaw、Hermes Agent等项目的兴起，这一概念已成为技术热点。业界逐渐达成共识：大型语言模型（LLM）潜力的充分发挥，越来越依赖于一套精心设计的外部框架系统。

然而，Harness的开发与优化本身是一项复杂的系统工程，需要紧密结合模型能力与具体任务场景进行综合设计。当前的核心矛盾在于：模型能力正以月为单位快速迭代，任务场景也日益长尾化和复杂化，但Harness的优化却严重依赖人工经验与反复试错。这引出了一个根本性问题：在Harness Engineering的迭代循环中，哪些环节可以实现自动化？我们能否让Harness框架具备自我学习与持续改进的能力？

近期，来自复旦大学、北京大学和上海奇绩智峰的研究团队提出了一项创新解决方案：Agentic Harness Engineering (AHE)。这是一种以“可观测性”为核心的Harness自动化优化方法论，旨在端到端地覆盖Harness工程全流程，从而最大化释放智能体的自主性与性能潜力。

实验数据充分证明了AHE的有效性。在基于GPT-5.4模型的测试中，AHE方法将智能体在Terminal-Bench 2基准测试上的得分从69.7分迭代提升至77.0分，实现了显著进步。更具突破性的是，当GPT-5.5模型发布后，AHE能够快速迭代出与之适配的新版Harness，并在相关全球排行榜中取得了第三名的优异成绩。

此外，这套自动化迭代产生的Harness框架展现了卓越的泛化能力——它不仅能在不同的大模型上稳定工作，也能适应多样化的任务集。这有力地表明，其性能提升并非源于对特定评测数据的“过拟合”，而是掌握了通用的优化原则。

为何需要构建可观测体系？

理解Harness Engineering的三个维度

要理解AHE的价值，首先需厘清Harness的本质。从系统构成看，模型与Harness共同形成了一个与环境交互的智能主体。模型处于核心，其行为发生在概率空间；而Harness则是包裹在外部的确定性组件，涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆以及日志观测等模块。在智能体执行复杂、长期的生产力任务时，Harness是确保其行为稳定、可靠、可控的关键保障。

从功能目标看，Harness的核心职责之一是管理模型与环境之间双向的“上下文信息流”。它需要在恰当的时机，将任务目标、用户意图、环境状态和外部知识传递给模型；同时，又要将模型生成的动作指令准确记录、校验并交付给环境执行。

过去，这项工作高度依赖人工操作：开发者手动编写提示词、复制终端输出、整理外部文档，并依靠直觉决定上下文的组织方式。因此，Harness设计的一个明确目标，就是让上下文流动变得更加精准、高效和自动化。

那么，Harness Engineering的方法论究竟是什么？最基础的一层，是对各个独立组件进行代码级优化，即常说的智能体（Agent）基础设施建设。开发者社区已贡献了大量优秀组件，涉及记忆管理、上下文窗口优化、沙盒环境、轨迹记录等。这依赖于扎实的软件工程能力，旨在提升每个组件的效率、安全性与稳定性。

但更进一步，对于任何特定任务环境，要找到最优的Harness配置，这就演变成一个“模型 x Harness x 环境”的组合优化问题。它没有明确的规则可循，也无法依靠人类的先验知识一步到位，必须进入“开发-观测-迭代”的循环，依据模型的运行轨迹和客观评测分数进行反复调整与优化。

人类的注意力是稀缺资源。于是，一个自然的构想应运而生：能否让智能体自身也参与到Harness的优化过程中？只要将优化目标、可操作空间和状态信息以智能体可理解的方式呈现，就能引入智能体进行自主优化。这正是AHE设计其可观测体系的根本出发点。

可观测体系的三层架构：组件、经验与决策

Harness的开发通常经历编写组件、运行智能体、收集反馈等多个阶段，这个过程需要反复迭代。要让智能体接手人类工程师的工作，就必须使整个过程产生的所有“上下文”变得可观测，并进行结构化和层次化的处理。

关键在于，不限制智能体的自主决策空间，而是依赖客观的评测结果以及更多分层信息，辅助其进行精准的问题定位与归因分析。

AHE方法由三个核心角色构成：负责运行测试的Coding Agent（编码智能体）、负责整理与分析轨迹的Agent Debugger（调试智能体），以及负责修改Harness以实现性能进化的Evolve Agent（进化智能体）。整个可观测体系也相应地分为三个部分：

（1）组件可观测性：基于“声明式Harness”的解耦设计

Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件：系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件都是独立文件，拥有明确的挂载点，彼此结构解耦。

这种设计的精妙之处在于，它使得“失败模式”与“特定组件”之间的映射关系变得极其清晰。所有修改都通过Git进行版本管理，每一次变更都是一次可追溯、可审计、可回滚的代码提交。

作为优化起点的Coding Agent，则故意从一个“零先验”的极简形态开始：仅具备运行shell命令的基础工具，不包含任何中间件、技能或子智能体。这样做的目的是确保后续每一次新增组件、每一次提示词改写，其效果都能被清晰、准确地归因。

（2）经验可观测性：Agent Debugger将海量轨迹转化为可消费资产

一次完整的基准评测所产生的原始运行轨迹动辄数千万Token，如果直接提供给Evolve Agent，其上下文窗口会瞬间被淹没，导致无法进行有效分析。

为此，AHE开发了一套名为Agent Debugger的分层提炼流水线：底层完整记录所有原始轨迹；中层由清理器去除重复冗余的工具输出；上层则通过一个问答子智能体，针对每道题目的多次运行结果，自动切换提问策略进行深入分析。最终，所有单题分析被汇总成一份约1万Token的概览报告，供Evolve Agent高效使用。

这本质上是一种“渐进式披露”的信息设计。Evolve Agent默认只需阅读高度概括的概览报告，但在需要核实细节时，可以随时调阅单题分析，甚至回溯到原始轨迹。数千万Token量级的原始数据，就此转化为可并发处理、可高效消费、可审计追溯的宝贵经验资产。

（3）决策可观测性：Evolve Agent遵循“证据驱动修改”原则

Evolve Agent的设计原则非常克制，核心目标是实现稳定、可靠的进化：

它仅被允许修改工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词等核心部分均为只读，彻底杜绝任何可能绕过评测的“作弊”行为。每次修改都必须附带一份详细的“变更清单”，内容包括：失败的具体证据（哪些任务未通过）、推断的根本原因、针对性的修改方案，以及自我声明的预测（预计修复哪些任务、可能对哪些任务产生负面影响）。每一轮修改后，由下一轮独立评测充当验证者：预测正确的修改得以保留，预测错误的修改则由系统自主决定回滚。

通过这种方式，每一次Harness的变动都不再是工程师的直觉或抽象经验，而是一条可以被下一轮实验严格验证或证伪的“科学假说”。Harness的进化，由此从一门依赖经验的“艺术”，走向了遵循证据的“工程科学”。

实验结果：超越人类专家，实现卓越的跨模型泛化能力

在主实验中，AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2基准上的pass@1分数从最初的69.7%提升到了77.0%，绝对提升达7.3个百分点，相对提升10.5%。这一成绩不仅超过了同样使用GPT-5.4的OpenAI最新Codex-CLI（71.9%），也显著优于ACE和Training Free-GRPO等主流基线方法。

更令人惊喜的在于其展现出的强大泛化能力。

跨任务泛化： 将在Terminal-Bench 2上演化得到的Harness框架冻结后，直接迁移到SWE-Bench Verified基准上进行测试。AHE以更少的Token消耗，实现了比ACE和TF-GRPO更高的任务成功率。这表明演化学习到的并非“如何解答Terminal-Bench 2特定题目”的狭隘知识，而是可迁移的通用工程优化经验。

跨模型泛化： 同样一份由GPT-5.4演化得到的Harness配置，分别应用于Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4模型，不做任何额外调整直接评测。结果显示，三种模型均获得了5.1到10.1个百分点的显著性能提升，且模型基础能力相对越弱，提升幅度越大。这证明这套Harness并非为某个特定模型量身定制，而是学习到了一些真正普适的、结构性的优化原则。

核心价值沉淀于何处？

事实性知识比策略性指导更具可迁移性

研究过程中不乏值得深思的发现。为了加速迭代，团队最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡，基本是“修复一个漏洞，却引入另一个新问题”。分析最终版本的Harness发现，Evolve Agent针对特定题目编写了高度针对性的“技巧性代码”，例如Golden Gate的splice-offset检测、Caffe的完整工作流模板等。这表明，过小的题目集使得单题的信号过强，无法抑制智能体产生“投机取巧”的倾向。

随后，团队将题目集扩展到包含89题的完整集合，并在Evolve Agent的系统提示词中加入了显式的方法论指导，例如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级排序。结果，过拟合问题确实得到缓解，但训练曲线在75.3%就早早达到平台期，不再上升，且78%的修改都集中在中间件层。人工引入的行为先验，反而成为了进化僵化的源头。

最终版本做出了两个关键改动：一是在评测时对每道题目运行两次，通过对比部分通过的差异来定位最精准的诊断信号；二是删除了所有行为指导，只保留证据驱动的过程要求和自动回滚规则。

结果上，不仅分数稳步提升至77.0%，修改分布也变得更为均衡与健康：中间件37% + 工具48% + 提示词10%，没有任何一个层级的修改占比超过一半，系统在不同演化阶段得以灵活调整优化重点。

一个来自开发者社区的惯性思维是“优先调整提示词”。然而，当把AHE演化得到的四类关键组件（记忆、工具、中间件、系统提示词）逐一单独放回最初的Harness中进行消融实验时，结果却出人意料：记忆组件单独迁移就能恢复全局性能增幅的95%以上，工具组件在中等难度题目上提升显著，而系统提示词单独迁移反而导致了性能下降。

一个合理的解释是：提示词的语义通常是策略性的（指导“你应该如何做”），而记忆和工具的语义更多是事实性的（提供“这里有一段可复用的代码或知识”）。事实性知识比策略性指导具有更好的迁移性，它们保留了具体的信息内容，同时维持了广泛的适用能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败：开发者习惯于教授策略，而模型更擅长从具体的事实和案例中学习与归纳。

结语：可观测的进化循环将加速AGI的到来

AHE带来的最大启示或许在于：当模型能力足够强大时，构建一个结构化的、高度可观测的自动化演化环境，比直接手动开发Harness框架本身更为重要。搭建好完善的观测体系——让Evolve Agent能够清晰访问组件状态、运行轨迹和性能反馈——然后在全量数据上运行自动化测试，就足以演化出具备竞争力的Harness。我们无需替智能体预设任何具体的方法论，只需为它提供一个清晰的工作区、明确的修改接口和高质量的反馈信号，Evolve Agent的行为便会自动向真实世界工程师的最佳实践收敛。

是时候迈出这关键一步，让Harness框架也开启自主进化的新时代了。

来源:https://www.163.com/dy/article/KTCVDIND0511AQHO.html

上一篇： DeepSeek代码模型即将发布编程能力全面升级

下一篇：中国高校勇夺世界大学生超算竞赛冠亚军