复旦自进化工程突破GPT-5.4性能再提升7%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

复旦自进化工程突破GPT-5.4性能再提升7%

热心网友时间：2026-05-20

转载

2026年，Harness Engineering（智能体框架工程）从一个前沿技术概念，迅速演变为驱动大模型落地的核心焦点。随着OpenAI、Anthropic、LangChain等机构相继发布深度技术解析，以及OpenClaw、Hermes Agent等开源项目的火爆，一个行业共识愈发清晰：大模型潜能的充分释放，正日益依赖于一套精密、高效的外部工程框架。

全球排名前三，复旦自进化Harness Engineering让GPT‑5.4再涨7个点

然而，Harness框架的开发与优化本身就是一个复杂的系统工程挑战，需要紧密结合模型能力与具体任务环境进行设计。当大模型自身在以月为单位快速迭代，应用场景不断向长尾、复杂领域延伸时，Harness的优化却依然高度依赖人工经验与反复试错。这引出了一个核心命题：在Harness Engineering的迭代循环中，哪些关键环节可以实现自动化？我们能否构建一个能够从经验中自我学习并持续改进的智能框架？

近期，来自复旦大学、北京大学与上海奇绩智峰的研究团队联合提出了一套名为Agentic Harness Engineering (AHE)的创新解决方案。其核心思路是通过一套由可观测性驱动的端到端自动化方法，贯穿Harness工程的全生命周期，旨在最大限度地激发和利用模型的自主优化能力。

论文标题：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
论文链接：arxiv.org/abs/2604.25850
代码仓库：github.com/china-qijizhifeng/agentic-Harness-engineering

实验数据表明，在GPT-5.4模型上，AHE成功将Coding Agent在Terminal-Bench 2基准测试上的得分从69.7分迭代提升至77.0分。更具突破性的是，当GPT-5.5模型发布后，AHE能够迅速自动化迭代出与之高度适配的新版Harness，最终在相关权威排行榜上位列全球第三。

此外，这套自动化演化出的Harness框架还展现出卓越的跨模型泛化与跨任务泛化能力，有力证明了其性能提升源于通用工程原则的习得，而非针对特定评测集的过拟合。

为何需要可观测体系？深入Harness Engineering的三个维度

要透彻理解AHE的设计哲学，首先需厘清Harness Engineering的本质。从系统构成看，模型与Harness共同构成了一个与环境交互的智能主体。模型是产生智能与不确定性的核心，其行为基于概率空间；而Harness则是包裹其外的确定性工程组件，涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆以及日志观测等模块。在智能体执行复杂、长周期的生产力任务时，Harness是确保其行为稳定、可靠、可控的关键基础设施。

从功能目标看，Harness的核心职责之一是管理模型与环境之间高效、精准的双向信息流：一方面需要将任务目标、用户意图、环境状态等信息结构化地传递给模型；另一方面则需要将模型的动作意图忠实地记录、校验并交回环境执行。

过去，这项工作高度依赖人工介入。开发者需手动设计提示词、复制终端输出、整理外部文档，上下文信息分散在互不连通的空间中，全凭工程师的直觉和经验来决定信息的构成与流动路径。因此，Harness设计的一个核心优化方向，就是让上下文的流动变得更加精准、高效和自主。

那么，Harness Engineering的方法论究竟包含哪些层面？

最基础的一层，是对各个独立组件进行代码级优化，即常说的Agent Infrastructure（智能体基础设施）。开发者社区贡献了大量优秀的Harness组件库，用于处理记忆、上下文管理、沙盒环境等，这依赖于扎实的工程能力，旨在让每个部分都变得更高效、安全、稳定。

但更进一步，当面对一个特定任务环境，需要寻找最优的Harness整体配置时，问题就演变为一个涉及模型、Harness、环境三者的复杂组合优化问题。此时，人类开发者的先验知识很难一步到位找到全局最优解，必须进入“开发-运行-观测-迭代”的闭环，依据模型的实际运行轨迹和客观评测分数进行反复调整与优化。

人类的注意力与时间是稀缺资源。因此，一个自然而然的构想是：让智能体自身也深度参与到对其外部框架的优化过程中。只要能将优化目标、可操作空间以及系统状态以一种智能体可理解、可处理的方式呈现，就有可能引入智能体进行自主、持续的优化。这正是AHE设计其核心可观测体系的根本出发点。

构建可观测体系：组件、经验与决策的三重维度

Harness的典型开发流程遵循几个阶段：编写组件、运行智能体、收集反馈，并不断循环。要让智能体接手人类的优化工作，关键在于让这个过程产生的所有上下文信息变得全面可观测，并实现高度的结构化和层次化。

AHE方法由三个核心智能角色构成：负责执行测试的Coding Agent、负责整理与分析运行轨迹的Agent Debugger，以及负责修改Harness以实现框架进化的Evolve Agent。其可观测体系也相应地划分为三个有机部分：

组件可观测性：通过NexAU框架提供解耦的、声明式的Harness组件定义与管理。
经验可观测性：通过Agent Debugger将海量原始运行轨迹提炼为分层的、可溯源的诊断反馈。
决策可观测性：让Evolve Agent基于Git版本历史与结构化反馈，进行证据驱动的精准修改。

（1）组件可观测性：基于“声明式Harness”的解耦设计

Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件：系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件都是独立文件，拥有明确的挂载点，彼此结构解耦。

这种设计的精妙之处在于，它使得“失败模式”与“具体组件”之间的映射关系变得极其清晰。所有修改都通过Git进行严格的版本管理，每一次变更都是一个可追溯、可审计、可回滚的独立提交。

作为优化起点的初始Coding Agent，被故意设计成一个“零先验”的极简形态：仅包含一个运行Shell命令的基础工具，没有任何中间件、技能或子智能体。这确保了后续每一次新增组件或改写提示词，其带来的效果变化都能被清晰、干净地归因分析。

（2）经验可观测性：Agent Debugger将海量轨迹转化为可消费资产

一次完整的基准评测产生的原始轨迹动辄数千万Token，如果直接提供给Evolve Agent，其上下文窗口会瞬间过载，根本无法进行有效的分析与决策。

为此，AHE开发了一套名为Agent Debugger的分层提炼流水线：底层完整记录所有原始交互轨迹；中层由Cleaner模块去除冗余重复的工具输出；上层则通过一个专用的QA子智能体，针对每道题目的多次运行结果，自动切换提问策略进行深度分析。最终，所有单题分析被汇聚、提炼成一份约10K Token的全局概览报告，供Evolve Agent高效消费与决策。

这本质上是一种渐进式披露的智能设计。Evolve Agent默认只需阅读高度浓缩的概览报告，但在需要对特定问题进行深度核实时，可以随时按需回溯查看单题细节乃至最原始的交互轨迹。如此一来，千万级Token的庞大数据就转化为了可并发处理、易于消费、全程可审计的宝贵经验资产。

（3）决策可观测性：Evolve Agent遵循“证据驱动修改”原则

Evolve Agent的设计遵循高度克制的原则，以确保进化过程的稳定性与可靠性：

其修改权限被严格限定在工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词等均设置为只读，彻底杜绝任何试图通过修改评测规则来“作弊”的行为。
每次修改都必须附带一份详细的“变更清单”，内容包括：具体的失败证据（明确哪些任务失败了）、推断的根本原因、针对性的修改方案，以及自我声明的效果预测（预计能修复哪些任务、可能对哪些任务产生负面影响）。每一轮修改后，由下一轮独立的评测充当验证者——预测正确的修改得以保留，预测错误的则由智能体自主决定回滚。

通过这套严谨的机制，每一次Harness的变动都不再是工程师抽象的、难以复现的经验或直觉，而是一条可以被下一轮实验客观证伪或证实的“科学假说”。Harness的进化，由此从一门依赖个人经验的“艺术”，走向了遵循可观测、可验证原则的“系统工程”。

实验结果：性能超越人类专家，展现卓越泛化能力

在主实验中，AHE驱动GPT-5.4模型，将Coding Agent在Terminal-Bench 2基准测试上的pass@1分数从最初的69.7%稳步提升至77.0%，绝对提升达7.3个百分点，相对提升幅度高达10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI官方Codex-CLI（71.9%），也显著优于ACE和Training Free-GRPO等当前主流基线方法。

更令人惊喜的是其在泛化能力上的表现：

跨任务泛化能力：将在Terminal-Bench 2上演化得到的最终Harness框架冻结后，直接迁移到SWE-Bench Verified测试集上进行评估。结果显示，AHE以更少的Token消耗，实现了比ACE和TF-GRPO更高的任务成功率。这表明演化过程学习到的是可迁移的通用工程经验与最佳实践，而非针对特定题集的“刷题”技巧。

跨模型泛化能力：将同一份由GPT-5.4演化得到的Harness，分别适配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4等不同模型上，不做任何再演化直接进行评测。三种模型均获得了5.1到10.1个百分点的显著性能提升，且模型的基础能力越弱，提升幅度相对越大。这说明演化出的Harness并非为某个特定模型“量身定制”，而是学习到了一些真正普适的、能提升模型与任务环境交互效率的结构性原则。

价值沉淀于何处？事实性知识比策略性指导更具可迁移性

在项目博客中，团队也分享了一些早期的失败探索与关键洞见。为了追求快速迭代，他们最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡，基本陷入“修复一个漏洞，引入另一个漏洞”的困境。分析最终版本的Harness发现，Evolve Agent对某些特定题目编写了高度针对性的“补丁”代码。这表明，过小的评测集会放大单一样本的信号，难以抑制智能体针对特定题目进行“黑客式”局部优化的倾向。

随后，团队将题集扩大到包含89道题的全集，并在Evolve Agent的系统提示词中加入了显式的方法论指导，如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合现象确实得到了缓解，但训练曲线在75.3%就早早触顶，且78%的修改都集中在中间件层。人工引入的行为先验，反而成为了进化过程僵化、陷入局部最优的源头。

最终版本做出了两个关键改动：一是在评测时对每道题目运行两次，通过对比差异来定位更精准、更鲁棒的诊断信号；二是删除了所有人为的行为指导，只保留基于证据驱动的过程要求和自动回滚规则。

结果，性能分数得以稳步提升至77.0%，修改分布也变得更为均衡与健康：中间件37%、工具48%、提示词10%，没有任何一个层级的修改占比过半，演化过程能够在不同阶段灵活调整优化重点。

一个极具启发性的发现来自消融实验。社区惯常思维是“优先调整提示词”。然而，当把AHE演化得到的四类核心组件（记忆、工具、中间件、系统提示词）逐一放回最初的基线Harness进行独立测试时，结果截然相反：仅迁移记忆组件就能恢复全局性能增幅的95%以上，工具组件对中等难度题目提升显著，而单独迁移优化后的系统提示词反而可能导致性能下降。

一个合理的解释是：提示词的语义本质上是策略性的（指导模型“你应该如何做”），而记忆和工具的语义是事实性的（提供“这里有一段可复用代码”或“这是一个可用功能”）。事实性知识比策略性指导具有更好的可迁移性与稳定性，它们保留了有效的结构化信息，同时维持了广泛的泛化能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败：开发者习惯于教授策略，而大模型更擅长从具体的事实和结构中自主学习规律。

结语：可观测的自动化进化循环将加速AGI进程

AHE带来的最大启示或许在于：当基础模型足够强大时，构建一个结构化的、高度可观测的自动化演化环境，比直接动手开发具体的Harness组件更为重要。只要构建好完善的观测体系——让Evolve Agent能够清晰、结构化地访问所有组件、运行轨迹和反馈信号——然后在全量、多样的数据上运行测试，就足以自动化演化出具备高度竞争力的Harness框架。无需替智能体预先思考任何具体的方法论，只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号，Evolve Agent的行为便会自动向真实优秀工程师的工程实践收敛。

道路已经指明：是时候迈出关键一步，让Harness框架自身也开启持续进化之旅了。

来源:https://www.jiqizhixin.com/articles/2026-05-20-15

上一篇： AMD苏姿丰上海携手李开复发布大模型算力解决方案

下一篇：开源AI大模型网关与资产管理系统New API详解