当前位置: 首页
AI资讯
复旦自进化工程突破GPT-5.4性能再提升7%

复旦自进化工程突破GPT-5.4性能再提升7%

热心网友 时间:2026-05-20
转载

2026年,Harness Engineering(智能体框架工程)从一个前沿技术概念,迅速演变为驱动大模型落地的核心焦点。随着OpenAI、Anthropic、LangChain等机构相继发布深度技术解析,以及OpenClaw、Hermes Agent等开源项目的火爆,一个行业共识愈发清晰:大模型潜能的充分释放,正日益依赖于一套精密、高效的外部工程框架。

全球排名前三,复旦自进化Harness Engineering让GPT‑5.4再涨7个点

然而,Harness框架的开发与优化本身就是一个复杂的系统工程挑战,需要紧密结合模型能力与具体任务环境进行设计。当大模型自身在以月为单位快速迭代,应用场景不断向长尾、复杂领域延伸时,Harness的优化却依然高度依赖人工经验与反复试错。这引出了一个核心命题:在Harness Engineering的迭代循环中,哪些关键环节可以实现自动化?我们能否构建一个能够从经验中自我学习并持续改进的智能框架?

近期,来自复旦大学、北京大学与上海奇绩智峰的研究团队联合提出了一套名为Agentic Harness Engineering (AHE)的创新解决方案。其核心思路是通过一套由可观测性驱动的端到端自动化方法,贯穿Harness工程的全生命周期,旨在最大限度地激发和利用模型的自主优化能力。

  • 论文标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
  • 论文链接:arxiv.org/abs/2604.25850
  • 代码仓库:github.com/china-qijizhifeng/agentic-Harness-engineering

实验数据表明,在GPT-5.4模型上,AHE成功将Coding Agent在Terminal-Bench 2基准测试上的得分从69.7分迭代提升至77.0分。更具突破性的是,当GPT-5.5模型发布后,AHE能够迅速自动化迭代出与之高度适配的新版Harness,最终在相关权威排行榜上位列全球第三

此外,这套自动化演化出的Harness框架还展现出卓越的跨模型泛化跨任务泛化能力,有力证明了其性能提升源于通用工程原则的习得,而非针对特定评测集的过拟合。

为何需要可观测体系?深入Harness Engineering的三个维度

要透彻理解AHE的设计哲学,首先需厘清Harness Engineering的本质。从系统构成看,模型与Harness共同构成了一个与环境交互的智能主体。模型是产生智能与不确定性的核心,其行为基于概率空间;而Harness则是包裹其外的确定性工程组件,涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆以及日志观测等模块。在智能体执行复杂、长周期的生产力任务时,Harness是确保其行为稳定、可靠、可控的关键基础设施。

从功能目标看,Harness的核心职责之一是管理模型与环境之间高效、精准的双向信息流:一方面需要将任务目标、用户意图、环境状态等信息结构化地传递给模型;另一方面则需要将模型的动作意图忠实地记录、校验并交回环境执行。

过去,这项工作高度依赖人工介入。开发者需手动设计提示词、复制终端输出、整理外部文档,上下文信息分散在互不连通的空间中,全凭工程师的直觉和经验来决定信息的构成与流动路径。因此,Harness设计的一个核心优化方向,就是让上下文的流动变得更加精准、高效和自主。

那么,Harness Engineering的方法论究竟包含哪些层面?

最基础的一层,是对各个独立组件进行代码级优化,即常说的Agent Infrastructure(智能体基础设施)。开发者社区贡献了大量优秀的Harness组件库,用于处理记忆、上下文管理、沙盒环境等,这依赖于扎实的工程能力,旨在让每个部分都变得更高效、安全、稳定。

但更进一步,当面对一个特定任务环境,需要寻找最优的Harness整体配置时,问题就演变为一个涉及模型、Harness、环境三者的复杂组合优化问题。此时,人类开发者的先验知识很难一步到位找到全局最优解,必须进入“开发-运行-观测-迭代”的闭环,依据模型的实际运行轨迹和客观评测分数进行反复调整与优化。

人类的注意力与时间是稀缺资源。因此,一个自然而然的构想是:让智能体自身也深度参与到对其外部框架的优化过程中。只要能将优化目标、可操作空间以及系统状态以一种智能体可理解、可处理的方式呈现,就有可能引入智能体进行自主、持续的优化。这正是AHE设计其核心可观测体系的根本出发点。

构建可观测体系:组件、经验与决策的三重维度

Harness的典型开发流程遵循几个阶段:编写组件、运行智能体、收集反馈,并不断循环。要让智能体接手人类的优化工作,关键在于让这个过程产生的所有上下文信息变得全面可观测,并实现高度的结构化和层次化。

AHE方法由三个核心智能角色构成:负责执行测试的Coding Agent、负责整理与分析运行轨迹的Agent Debugger,以及负责修改Harness以实现框架进化的Evolve Agent。其可观测体系也相应地划分为三个有机部分:

  1. 组件可观测性:通过NexAU框架提供解耦的、声明式的Harness组件定义与管理。
  2. 经验可观测性:通过Agent Debugger将海量原始运行轨迹提炼为分层的、可溯源的诊断反馈。
  3. 决策可观测性:让Evolve Agent基于Git版本历史与结构化反馈,进行证据驱动的精准修改。

(1)组件可观测性:基于“声明式Harness”的解耦设计

Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件都是独立文件,拥有明确的挂载点,彼此结构解耦。

这种设计的精妙之处在于,它使得“失败模式”与“具体组件”之间的映射关系变得极其清晰。所有修改都通过Git进行严格的版本管理,每一次变更都是一个可追溯、可审计、可回滚的独立提交。

作为优化起点的初始Coding Agent,被故意设计成一个“零先验”的极简形态:仅包含一个运行Shell命令的基础工具,没有任何中间件、技能或子智能体。这确保了后续每一次新增组件或改写提示词,其带来的效果变化都能被清晰、干净地归因分析。

(2)经验可观测性:Agent Debugger将海量轨迹转化为可消费资产

一次完整的基准评测产生的原始轨迹动辄数千万Token,如果直接提供给Evolve Agent,其上下文窗口会瞬间过载,根本无法进行有效的分析与决策。

为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录所有原始交互轨迹;中层由Cleaner模块去除冗余重复的工具输出;上层则通过一个专用的QA子智能体,针对每道题目的多次运行结果,自动切换提问策略进行深度分析。最终,所有单题分析被汇聚、提炼成一份约10K Token的全局概览报告,供Evolve Agent高效消费与决策。

这本质上是一种渐进式披露的智能设计。Evolve Agent默认只需阅读高度浓缩的概览报告,但在需要对特定问题进行深度核实时,可以随时按需回溯查看单题细节乃至最原始的交互轨迹。如此一来,千万级Token的庞大数据就转化为了可并发处理、易于消费、全程可审计的宝贵经验资产。

(3)决策可观测性:Evolve Agent遵循“证据驱动修改”原则

Evolve Agent的设计遵循高度克制的原则,以确保进化过程的稳定性与可靠性:

  • 其修改权限被严格限定在工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词等均设置为只读,彻底杜绝任何试图通过修改评测规则来“作弊”的行为。
  • 每次修改都必须附带一份详细的“变更清单”,内容包括:具体的失败证据(明确哪些任务失败了)、推断的根本原因、针对性的修改方案,以及自我声明的效果预测(预计能修复哪些任务、可能对哪些任务产生负面影响)。每一轮修改后,由下一轮独立的评测充当验证者——预测正确的修改得以保留,预测错误的则由智能体自主决定回滚。

通过这套严谨的机制,每一次Harness的变动都不再是工程师抽象的、难以复现的经验或直觉,而是一条可以被下一轮实验客观证伪或证实的“科学假说”。Harness的进化,由此从一门依赖个人经验的“艺术”,走向了遵循可观测、可验证原则的“系统工程”。

实验结果:性能超越人类专家,展现卓越泛化能力

在主实验中,AHE驱动GPT-5.4模型,将Coding Agent在Terminal-Bench 2基准测试上的pass@1分数从最初的69.7%稳步提升至77.0%,绝对提升达7.3个百分点,相对提升幅度高达10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI官方Codex-CLI(71.9%),也显著优于ACE和Training Free-GRPO等当前主流基线方法。

更令人惊喜的是其在泛化能力上的表现:

跨任务泛化能力:将在Terminal-Bench 2上演化得到的最终Harness框架冻结后,直接迁移到SWE-Bench Verified测试集上进行评估。结果显示,AHE以更少的Token消耗,实现了比ACE和TF-GRPO更高的任务成功率。这表明演化过程学习到的是可迁移的通用工程经验与最佳实践,而非针对特定题集的“刷题”技巧。

跨模型泛化能力:将同一份由GPT-5.4演化得到的Harness,分别适配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4等不同模型上,不做任何再演化直接进行评测。三种模型均获得了5.1到10.1个百分点的显著性能提升,且模型的基础能力越弱,提升幅度相对越大。这说明演化出的Harness并非为某个特定模型“量身定制”,而是学习到了一些真正普适的、能提升模型与任务环境交互效率的结构性原则。

价值沉淀于何处?事实性知识比策略性指导更具可迁移性

在项目博客中,团队也分享了一些早期的失败探索与关键洞见。为了追求快速迭代,他们最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡,基本陷入“修复一个漏洞,引入另一个漏洞”的困境。分析最终版本的Harness发现,Evolve Agent对某些特定题目编写了高度针对性的“补丁”代码。这表明,过小的评测集会放大单一样本的信号,难以抑制智能体针对特定题目进行“黑客式”局部优化的倾向。

随后,团队将题集扩大到包含89道题的全集,并在Evolve Agent的系统提示词中加入了显式的方法论指导,如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合现象确实得到了缓解,但训练曲线在75.3%就早早触顶,且78%的修改都集中在中间件层。人工引入的行为先验,反而成为了进化过程僵化、陷入局部最优的源头。

最终版本做出了两个关键改动:一是在评测时对每道题目运行两次,通过对比差异来定位更精准、更鲁棒的诊断信号;二是删除了所有人为的行为指导,只保留基于证据驱动的过程要求和自动回滚规则。

结果,性能分数得以稳步提升至77.0%,修改分布也变得更为均衡与健康:中间件37%、工具48%、提示词10%,没有任何一个层级的修改占比过半,演化过程能够在不同阶段灵活调整优化重点。

一个极具启发性的发现来自消融实验。社区惯常思维是“优先调整提示词”。然而,当把AHE演化得到的四类核心组件(记忆、工具、中间件、系统提示词)逐一放回最初的基线Harness进行独立测试时,结果截然相反:仅迁移记忆组件就能恢复全局性能增幅的95%以上,工具组件对中等难度题目提升显著,而单独迁移优化后的系统提示词反而可能导致性能下降。

一个合理的解释是:提示词的语义本质上是策略性的(指导模型“你应该如何做”),而记忆和工具的语义是事实性的(提供“这里有一段可复用代码”或“这是一个可用功能”)。事实性知识比策略性指导具有更好的可迁移性与稳定性,它们保留了有效的结构化信息,同时维持了广泛的泛化能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败:开发者习惯于教授策略,而大模型更擅长从具体的事实和结构中自主学习规律。

结语:可观测的自动化进化循环将加速AGI进程

AHE带来的最大启示或许在于:当基础模型足够强大时,构建一个结构化的、高度可观测的自动化演化环境,比直接动手开发具体的Harness组件更为重要。只要构建好完善的观测体系——让Evolve Agent能够清晰、结构化地访问所有组件、运行轨迹和反馈信号——然后在全量、多样的数据上运行测试,就足以自动化演化出具备高度竞争力的Harness框架。无需替智能体预先思考任何具体的方法论,只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,Evolve Agent的行为便会自动向真实优秀工程师的工程实践收敛。

道路已经指明:是时候迈出关键一步,让Harness框架自身也开启持续进化之旅了。

来源:https://www.jiqizhixin.com/articles/2026-05-20-15

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
豆神教育联合微软Azure推出AI短剧创作平台

豆神教育联合微软Azure推出AI短剧创作平台

在刚刚结束的Microsoft AI Tour年度盛会上,一个来自教育科技领域的品牌备受瞩目——豆神教育。作为大会的重要合作伙伴,豆神教育正式发布了其创新的“豆神AI短剧平台”。这不仅是一款新产品的问世,更是为整个内容创作行业带来了新的变革信号,预示着AI技术与创意表达深度融合的未来趋势。 该平台的

时间:2026-05-20 19:32
稀宇科技开源办公文档引擎MiniMax Office Skills详解

稀宇科技开源办公文档引擎MiniMax Office Skills详解

MiniMax Office Skills:一套解决AI文档交付痛点的生产级引擎 在AI Agent自动化办公日益普及的今天,一个关键的“最后一公里”难题始终困扰着开发者:AI生成的文档看似可以打开,却常常因为格式错乱、公式失效或高级功能丢失而无法直接用于正式交付。其根本原因在于,许多现有工具难以精

时间:2026-05-20 19:32
阿里通义视频生成音频框架PrismAudio详解

阿里通义视频生成音频框架PrismAudio详解

PrismAudio是什么?阿里通义实验室视频生成音频框架详解与使用指南 如何为无声视频自动添加逼真的环境音效?无论是马蹄踏石的清脆回响,还是雨滴敲窗的淅沥节奏,过去这需要专业音效师才能完成。如今,阿里通义实验室推出的PrismAudio框架,正通过先进的AI技术让视频生成音频(Video-to-A

时间:2026-05-20 19:31
开源AI大模型网关与资产管理系统New API详解

开源AI大模型网关与资产管理系统New API详解

如果你正在为同时管理多个AI模型的API密钥、监控成本、确保服务稳定而头疼,那么今天讨论的这个工具,或许能成为你的“统一指挥中心”。它叫New API,一个定位为新一代AI网关与资产管理系统的开源平台。 New API是什么? 简单来说,New API是一个AI基座平台。它的核心价值在于,为你提供了

时间:2026-05-20 19:31
复旦自进化工程突破GPT-5.4性能再提升7%

复旦自进化工程突破GPT-5.4性能再提升7%

2026年,HarnessEngineering(智能体框架工程)成为行业焦点。但Harness迭代高度依赖人工,面临自动化挑战。复旦等团队提出AgenticHarnessEngineering方案,通过可观测性驱动自动化端到端优化流程。实验显示,该方案将GPT-5 4模型在Terminal-Bench2基准分数从69 7提升至77 0,并能快速适配新模型G

时间:2026-05-20 19:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程