当前位置: 首页
AI资讯
复旦自进化工程让GPT5.4性能再提升7%

复旦自进化工程让GPT5.4性能再提升7%

热心网友 时间:2026-05-20
转载

2026年,人工智能领域的一个关键趋势日益凸显:OpenAI、Anthropic、LangChain等行业领导者纷纷将目光投向“Harness Engineering”(智能体框架工程)。随着OpenClaw、Hermes Agent等项目的兴起,这一概念已成为技术热点。业界逐渐达成共识:大型语言模型(LLM)潜力的充分发挥,越来越依赖于一套精心设计的外部框架系统。

然而,Harness的开发与优化本身是一项复杂的系统工程,需要紧密结合模型能力与具体任务场景进行综合设计。当前的核心矛盾在于:模型能力正以月为单位快速迭代,任务场景也日益长尾化和复杂化,但Harness的优化却严重依赖人工经验与反复试错。这引出了一个根本性问题:在Harness Engineering的迭代循环中,哪些环节可以实现自动化?我们能否让Harness框架具备自我学习与持续改进的能力?

近期,来自复旦大学、北京大学和上海奇绩智峰的研究团队提出了一项创新解决方案:Agentic Harness Engineering (AHE)。这是一种以“可观测性”为核心的Harness自动化优化方法论,旨在端到端地覆盖Harness工程全流程,从而最大化释放智能体的自主性与性能潜力。

实验数据充分证明了AHE的有效性。在基于GPT-5.4模型的测试中,AHE方法将智能体在Terminal-Bench 2基准测试上的得分从69.7分迭代提升至77.0分,实现了显著进步。更具突破性的是,当GPT-5.5模型发布后,AHE能够快速迭代出与之适配的新版Harness,并在相关全球排行榜中取得了第三名的优异成绩。

此外,这套自动化迭代产生的Harness框架展现了卓越的泛化能力——它不仅能在不同的大模型上稳定工作,也能适应多样化的任务集。这有力地表明,其性能提升并非源于对特定评测数据的“过拟合”,而是掌握了通用的优化原则。

为何需要构建可观测体系?

理解Harness Engineering的三个维度

要理解AHE的价值,首先需厘清Harness的本质。从系统构成看,模型与Harness共同形成了一个与环境交互的智能主体。模型处于核心,其行为发生在概率空间;而Harness则是包裹在外部的确定性组件,涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆以及日志观测等模块。在智能体执行复杂、长期的生产力任务时,Harness是确保其行为稳定、可靠、可控的关键保障。

从功能目标看,Harness的核心职责之一是管理模型与环境之间双向的“上下文信息流”。它需要在恰当的时机,将任务目标、用户意图、环境状态和外部知识传递给模型;同时,又要将模型生成的动作指令准确记录、校验并交付给环境执行。

过去,这项工作高度依赖人工操作:开发者手动编写提示词、复制终端输出、整理外部文档,并依靠直觉决定上下文的组织方式。因此,Harness设计的一个明确目标,就是让上下文流动变得更加精准、高效和自动化。

那么,Harness Engineering的方法论究竟是什么?最基础的一层,是对各个独立组件进行代码级优化,即常说的智能体(Agent)基础设施建设。开发者社区已贡献了大量优秀组件,涉及记忆管理、上下文窗口优化、沙盒环境、轨迹记录等。这依赖于扎实的软件工程能力,旨在提升每个组件的效率、安全性与稳定性。

但更进一步,对于任何特定任务环境,要找到最优的Harness配置,这就演变成一个“模型 x Harness x 环境”的组合优化问题。它没有明确的规则可循,也无法依靠人类的先验知识一步到位,必须进入“开发-观测-迭代”的循环,依据模型的运行轨迹和客观评测分数进行反复调整与优化。

人类的注意力是稀缺资源。于是,一个自然的构想应运而生:能否让智能体自身也参与到Harness的优化过程中?只要将优化目标、可操作空间和状态信息以智能体可理解的方式呈现,就能引入智能体进行自主优化。这正是AHE设计其可观测体系的根本出发点。

可观测体系的三层架构:组件、经验与决策

Harness的开发通常经历编写组件、运行智能体、收集反馈等多个阶段,这个过程需要反复迭代。要让智能体接手人类工程师的工作,就必须使整个过程产生的所有“上下文”变得可观测,并进行结构化和层次化的处理。

关键在于,不限制智能体的自主决策空间,而是依赖客观的评测结果以及更多分层信息,辅助其进行精准的问题定位与归因分析。

AHE方法由三个核心角色构成:负责运行测试的Coding Agent(编码智能体)、负责整理与分析轨迹的Agent Debugger(调试智能体),以及负责修改Harness以实现性能进化的Evolve Agent(进化智能体)。整个可观测体系也相应地分为三个部分:

(1)组件可观测性:基于“声明式Harness”的解耦设计

Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件都是独立文件,拥有明确的挂载点,彼此结构解耦。

这种设计的精妙之处在于,它使得“失败模式”与“特定组件”之间的映射关系变得极其清晰。所有修改都通过Git进行版本管理,每一次变更都是一次可追溯、可审计、可回滚的代码提交。

作为优化起点的Coding Agent,则故意从一个“零先验”的极简形态开始:仅具备运行shell命令的基础工具,不包含任何中间件、技能或子智能体。这样做的目的是确保后续每一次新增组件、每一次提示词改写,其效果都能被清晰、准确地归因。

(2)经验可观测性:Agent Debugger将海量轨迹转化为可消费资产

一次完整的基准评测所产生的原始运行轨迹动辄数千万Token,如果直接提供给Evolve Agent,其上下文窗口会瞬间被淹没,导致无法进行有效分析。

为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录所有原始轨迹;中层由清理器去除重复冗余的工具输出;上层则通过一个问答子智能体,针对每道题目的多次运行结果,自动切换提问策略进行深入分析。最终,所有单题分析被汇总成一份约1万Token的概览报告,供Evolve Agent高效使用。

这本质上是一种“渐进式披露”的信息设计。Evolve Agent默认只需阅读高度概括的概览报告,但在需要核实细节时,可以随时调阅单题分析,甚至回溯到原始轨迹。数千万Token量级的原始数据,就此转化为可并发处理、可高效消费、可审计追溯的宝贵经验资产。

(3)决策可观测性:Evolve Agent遵循“证据驱动修改”原则

Evolve Agent的设计原则非常克制,核心目标是实现稳定、可靠的进化:

它仅被允许修改工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词等核心部分均为只读,彻底杜绝任何可能绕过评测的“作弊”行为。每次修改都必须附带一份详细的“变更清单”,内容包括:失败的具体证据(哪些任务未通过)、推断的根本原因、针对性的修改方案,以及自我声明的预测(预计修复哪些任务、可能对哪些任务产生负面影响)。每一轮修改后,由下一轮独立评测充当验证者:预测正确的修改得以保留,预测错误的修改则由系统自主决定回滚。

通过这种方式,每一次Harness的变动都不再是工程师的直觉或抽象经验,而是一条可以被下一轮实验严格验证或证伪的“科学假说”。Harness的进化,由此从一门依赖经验的“艺术”,走向了遵循证据的“工程科学”。

实验结果:超越人类专家,实现卓越的跨模型泛化能力

在主实验中,AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2基准上的pass@1分数从最初的69.7%提升到了77.0%,绝对提升达7.3个百分点,相对提升10.5%。这一成绩不仅超过了同样使用GPT-5.4的OpenAI最新Codex-CLI(71.9%),也显著优于ACE和Training Free-GRPO等主流基线方法。

更令人惊喜的在于其展现出的强大泛化能力。

跨任务泛化: 将在Terminal-Bench 2上演化得到的Harness框架冻结后,直接迁移到SWE-Bench Verified基准上进行测试。AHE以更少的Token消耗,实现了比ACE和TF-GRPO更高的任务成功率。这表明演化学习到的并非“如何解答Terminal-Bench 2特定题目”的狭隘知识,而是可迁移的通用工程优化经验。

跨模型泛化: 同样一份由GPT-5.4演化得到的Harness配置,分别应用于Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4模型,不做任何额外调整直接评测。结果显示,三种模型均获得了5.1到10.1个百分点的显著性能提升,且模型基础能力相对越弱,提升幅度越大。这证明这套Harness并非为某个特定模型量身定制,而是学习到了一些真正普适的、结构性的优化原则。

核心价值沉淀于何处?

事实性知识比策略性指导更具可迁移性

研究过程中不乏值得深思的发现。为了加速迭代,团队最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡,基本是“修复一个漏洞,却引入另一个新问题”。分析最终版本的Harness发现,Evolve Agent针对特定题目编写了高度针对性的“技巧性代码”,例如Golden Gate的splice-offset检测、Caffe的完整工作流模板等。这表明,过小的题目集使得单题的信号过强,无法抑制智能体产生“投机取巧”的倾向。

随后,团队将题目集扩展到包含89题的完整集合,并在Evolve Agent的系统提示词中加入了显式的方法论指导,例如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级排序。结果,过拟合问题确实得到缓解,但训练曲线在75.3%就早早达到平台期,不再上升,且78%的修改都集中在中间件层。人工引入的行为先验,反而成为了进化僵化的源头。

最终版本做出了两个关键改动:一是在评测时对每道题目运行两次,通过对比部分通过的差异来定位最精准的诊断信号;二是删除了所有行为指导,只保留证据驱动的过程要求和自动回滚规则。

结果上,不仅分数稳步提升至77.0%,修改分布也变得更为均衡与健康:中间件37% + 工具48% + 提示词10%,没有任何一个层级的修改占比超过一半,系统在不同演化阶段得以灵活调整优化重点。

一个来自开发者社区的惯性思维是“优先调整提示词”。然而,当把AHE演化得到的四类关键组件(记忆、工具、中间件、系统提示词)逐一单独放回最初的Harness中进行消融实验时,结果却出人意料:记忆组件单独迁移就能恢复全局性能增幅的95%以上,工具组件在中等难度题目上提升显著,而系统提示词单独迁移反而导致了性能下降。

一个合理的解释是:提示词的语义通常是策略性的(指导“你应该如何做”),而记忆和工具的语义更多是事实性的(提供“这里有一段可复用的代码或知识”)。事实性知识比策略性指导具有更好的迁移性,它们保留了具体的信息内容,同时维持了广泛的适用能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败:开发者习惯于教授策略,而模型更擅长从具体的事实和案例中学习与归纳。

结语:可观测的进化循环将加速AGI的到来

AHE带来的最大启示或许在于:当模型能力足够强大时,构建一个结构化的、高度可观测的自动化演化环境,比直接手动开发Harness框架本身更为重要。搭建好完善的观测体系——让Evolve Agent能够清晰访问组件状态、运行轨迹和性能反馈——然后在全量数据上运行自动化测试,就足以演化出具备竞争力的Harness。我们无需替智能体预设任何具体的方法论,只需为它提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,Evolve Agent的行为便会自动向真实世界工程师的最佳实践收敛。

是时候迈出这关键一步,让Harness框架也开启自主进化的新时代了。

来源:https://www.163.com/dy/article/KTCVDIND0511AQHO.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
中国高校勇夺世界大学生超算竞赛冠亚军

中国高校勇夺世界大学生超算竞赛冠亚军

第13届ASC世界大学生超级计算机总决赛在无锡落幕。全球25所高校队伍在量子计算、人工智能等前沿领域展开角逐。北京大学与清华大学分获冠亚军,展现了中国高校在超算应用上的强大实力。该竞赛自发起以来已吸引全球超万名大学生参与,成为培养未来计算人才的重要平台。

时间:2026-05-20 22:18
复旦自进化工程让GPT5.4性能再提升7%

复旦自进化工程让GPT5.4性能再提升7%

复旦大学等机构提出AgenticHarnessEngineering方法,通过构建可观测体系将Harness拆解为独立组件,利用智能体分析运行轨迹并自主迭代优化。实验显示,该方法使GPT-5 4在基准测试得分提升7 3%,优化后的框架具备优秀的跨模型与跨任务泛化能力,其性能提升源于学习通用工程经验而非针对特定评测的过拟合。

时间:2026-05-20 22:17
DeepSeek代码模型即将发布编程能力全面升级

DeepSeek代码模型即将发布编程能力全面升级

DeepSeek内部组建名为“Harness”的新团队,旨在开发对标ClaudeCode的代码智能体产品。相关招聘岗位已发布,明确将“Agent产品化”作为核心任务,并首次提及开发桌面端Agent产品。这标志着DeepSeek正从提供模型转向提供完整的智能体解决方案,战略布局开发者工作流入口。

时间:2026-05-20 22:17
阿里蔡崇信吴泳铭股东信:AI与云业务成未来增长新引擎

阿里蔡崇信吴泳铭股东信:AI与云业务成未来增长新引擎

阿里巴巴管理层在致股东信中宣布,公司AI业务已结束大规模投入期,正式进入追求商业回报的新阶段。未来将聚焦“AI+云”战略,通过投资基础设施、自研芯片、强化模型与应用生态以及打造MaaS平台,构建全栈能力,旨在将其发展为驱动增长的新核心引擎。

时间:2026-05-20 22:16
苏莱曼如何从DeepMind创始人跌落神坛

苏莱曼如何从DeepMind创始人跌落神坛

苏莱曼从DeepMind联合创始人到加入微软后,其负责的AI项目进展缓慢,未能兑现AI快速取代专业工作的预言,导致业界评价走低。其技术能力与管理风格均受质疑,从早期共创辉煌到如今因项目迟滞沦为笑谈,其经历凸显了在激烈竞争中持续交付成果的重要性。

时间:2026-05-20 22:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程