当前位置: 首页
AI资讯
复旦自进化Harness工程让GPT‑5.4性能再提升七个点

复旦自进化Harness工程让GPT‑5.4性能再提升七个点

热心网友 时间:2026-05-21
转载

如果说2026年AI领域有什么共识正在加速形成,那就是:大模型本身的能力,越来越依赖于一套精密的外部框架来释放。OpenAI、Anthropic、LangChain等机构的技术博客,以及OpenClaw、Hermes Agent等项目的火爆,都指向同一个热词——Harness Engineering(缰绳工程)。

原因很清晰:模型能力的迭代以月为单位,任务场景却日益复杂和长尾,而框架(Harness)的优化高度依赖人工经验。这引出了一个核心的工程挑战:在Harness的迭代循环中,哪些环节可以实现自动化?如何让框架具备自我学习和改进的能力?

近期,来自复旦大学、北京大学和上海奇绩智峰的团队提出了一个极具启发性的解决方案:Agentic Harness Engineering (AHE)。这是一套以可观测性为核心驱动的Harness自动化优化方法,旨在端到端地贯穿框架工程全流程,从而最大化释放模型的潜能。

图片

从实验结果来看,这套方法成效显著。使用GPT-5.4时,AHE将模型在Terminal-Bench 2上的评测分数从69.7分迭代提升到了77.0分。更值得一提的是,当GPT-5.5发布后,AHE能迅速演化出与之适配的新Harness,并在相关评测榜单位列全球第三。这背后,是自动迭代出的框架展现出了优秀的跨模型和跨任务泛化能力,说明它学习到的是通用的工程原则,而非针对特定评测集的“应试技巧”。

图片

目前,相关论文已在社交平台X上获得了超过10万次的浏览与讨论,引发了业界广泛关注。

图片

为什么要设计可观测体系?

要理解AHE,首先需要洞察Harness Engineering的本质。我们可以从三个维度来审视它。

图片

从形态上看,模型和Harness共同构成了一个与环境交互的智能体。模型处于概率空间,是智能与不确定性的来源;而Harness则是包裹其外的确定性组件,包括系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆等。在智能体执行复杂、长期的生产力任务时,Harness是确保其行为稳定、一致、可控的关键保障。

从目的上看,Harness的核心职能之一是管理模型与环境之间的双向信息流:一方面在合适时机将任务、用户意图、环境状态等信息传递给模型,另一方面则将模型的输出忠实地记录、校验后交回环境执行。过去,开发者需要手动拼凑这些上下文,而Harness的目标就是让这种信息流动更精准、更自主。

那么,Harness Engineering的方法论是什么?最基础的一层,是独立优化各个组件代码,这依赖于扎实的工程开发,让每个部分变得更高效、安全。

但更进一步,对于特定环境,寻找最优Harness就变成了一个模型、框架、环境三者的组合优化问题。这无法依赖人类先验知识一步到位,必须通过开发、观测、迭代的循环,根据模型的运行轨迹和评测结果反复调整。

问题在于,人类的注意力是稀缺资源。因此,一个自然的思路是:让智能体自身也参与到框架的优化过程中来。只要将优化目标、动作空间和状态空间以智能体可读的方式呈现,就能引入智能体进行自主优化。这正是AHE设计其可观测体系的根本出发点。

可观测体系:组件、经验、决策

Harness的开发通常经历编写组件、运行智能体、收集反馈的迭代循环。要让智能体接手这项工作,就必须让过程中产生的所有上下文变得可观测,并且实现结构化和层次化。

AHE方法由三个核心智能体角色构成:执行测试的Coding Agent、负责整理轨迹的Agent Debugger,以及修改框架实现进化的Evolve Agent。其可观测体系也相应分为三部分:

1. 组件可观测性:解耦的“声明式Harness”
Coding Agent基于名为NexAU的框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置、长期记忆。每个组件都是独立文件,有明确的挂载点,彼此结构解耦。

这种设计的优势在于,它让“失败模式”与“单一组件”的映射关系变得极其清晰。所有修改通过Git进行版本管理,确保了每次变更都可追溯、可审计、可回滚。而作为优化起点的Coding Agent,则从一个“零先验”的极简形态开始,确保后续每一次组件新增或提示词修改,都能被清晰地归因。

2. 经验可观测性:把海量轨迹变成可消费资产
一次完整评测产生的原始轨迹动辄数千万Token,直接丢给Evolve Agent只会淹没其上下文窗口。为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录原始轨迹;中层由Cleaner去除重复工具输出;上层则通过一个QA子智能体,针对每道题的多次运行结果进行策略性分析。最终,所有分析汇聚成一份约1万Token的概览报告,供Evolve Agent高效消费。

这本质上是一种渐进式披露的设计。Evolve Agent默认只需阅读概览,但在需要核实时,可以随时回溯查看单题细节乃至原始轨迹,从而将海量数据转化为可并发处理、可审计的经验资产。

3. 决策可观测性:证据驱动的修改
图片

Evolve Agent的设计原则非常克制,以确保进化过程的稳定:它只能修改工作区内的Harness组件文件,评测框架、LLM配置等均为只读,杜绝任何取巧行为。每次修改都必须附带一份详细的“变更清单”,包括失败证据、推断根因、修改方案以及自我声明的性能预测。下一轮评测则充当验证者:预测正确的修改保留,预测错误的则自主决定回滚。

如此一来,每一次Harness的变动,都不再是工程师的直觉或抽象经验,而是一条可以被下一轮实验证伪的“科学假说”。框架的进化,由此从一门艺术走向了工程,从依赖经验走向了遵循科学。

实验结果:超越人类专家,展现强大泛化能力

图片

在主实验中,AHE将GPT-5.4驱动的Coding Agent在Terminal-Bench 2上的pass@1分数从69.7%提升至77.0%,绝对提升7.3个百分点。这一成绩超越了使用同版本模型的其他主流方案。

更值得关注的是其展现出的泛化能力:

跨任务泛化: 将在Terminal-Bench 2上演化得到的Harness,直接迁移到SWE-Bench Verified任务上,AHE以更少的Token消耗实现了比对比基线更高的成功率。这表明演化学到的是可迁移的通用工程经验,而非针对特定评测集的“过拟合”知识。
图片

跨模型泛化: 将同一份由GPT-5.4演化得到的Harness,直接配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4上,不做任何调整。结果显示,三种模型均获得了显著提升(+5.1到+10.1个百分点),且模型基础能力越弱,提升幅度越大。这证明演化出的Harness蕴含了一些普适的结构性原则,而非为某个特定模型定制。
图片

价值沉淀:事实比策略更可迁移

在探索过程中,团队也经历过失败。早期仅在30道高难度题目上进行演化,结果智能体学会了针对特定题目的“黑客技巧”,导致性能在局部震荡,无法持续提升。将题集扩大到89题全集并加入人工方法论指导后,过拟合虽缓解,但演化很快陷入瓶颈,75.3%就触顶,且78%的修改都集中在中间件层——人工引入的行为先验,反而成了进化僵化的源头。

最终版本的突破来自两个关键改动:一是在评测时每题运行两次,通过差异对比定位更精准的诊断信号;二是删除了所有行为指导,只保留证据驱动的过程要求和回滚规则。结果,性能稳步提升至77.0%,且修改分布变得健康均衡。

图片

一个反直觉的发现来自消融实验。当把AHE演化得到的四类组件(记忆、工具、中间件、系统提示词)逐一放回初始框架测试时,结果出乎意料:记忆(Memory)组件单独就能恢复全局性能增幅的95%以上,工具组件对中等难度题目提升显著,而单独迁移系统提示词反而导致性能下降。

这或许揭示了一个深层逻辑:提示词的语义往往是策略性的(“你应该这样做”),而记忆和工具的语义是事实性的(“这里有一段可复用代码”或“这是一个可用功能”)。事实比策略具有更好的可迁移性,它们在保留有效信息的同时,维持了更强的泛化能力。这也解释了为何人类试图用方法论指导演化智能体时会失败——开发者习惯于教授策略,而模型更擅长从事实中学习。

结语:可观测的进化循环将加速AGI进程

AHE带来的最大启示或许在于:当模型足够强大时,搭建一个结构化的、高度可观测的演化环境,比直接动手开发某个具体的Harness更为重要。构建好观测体系,让演化智能体能够清晰访问组件、轨迹和反馈,然后在全量数据上运行测试,就足以演化出具备竞争力的框架。

无需替智能体思考任何具体的方法论,只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,演化智能体的行为便会自动向优秀工程师的实践收敛。这标志着框架工程进入了一个新阶段:是时候让Harness本身也开始进化了。

来源:https://www.51cto.com/article/843819.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术

时间:2026-05-23 08:46
简历工作经历优化技巧 AI助你告别流水账式写法

简历工作经历优化技巧 AI助你告别流水账式写法

简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。

时间:2026-05-23 08:45
阿里云发布全栈芯片路线图 平头哥真武M890性能提升三倍

阿里云发布全栈芯片路线图 平头哥真武M890性能提升三倍

阿里云推出平头哥新一代AI芯片真武M890,配备144GB显存,算力性能达上一代3倍,支撑智能体高频模型调用。该芯片已实战验证,未来将推出后续型号。平头哥坚持软硬一体策略,通义千问大模型在其上自主运行并实现性能提升,阿里云目标以此扩大AI市场份额。

时间:2026-05-23 08:43
QClaw培训考试试卷自动生成与评分操作指南

QClaw培训考试试卷自动生成与评分操作指南

QClaw是一款自动化培训考试工具,通过微信指令驱动,可自动生成结构化Word试卷。它支持依据标准答案批改电子答卷并输出成绩表,还能通过OCR识别纸质答题卡图像,生成带批注的PDF和成绩汇总,实现从出题到评分的全流程自动化。

时间:2026-05-23 08:42
OpenClaw批量改写工具使用教程与技巧详解

OpenClaw批量改写工具使用教程与技巧详解

实现OpenClaw批量内容改写需完成几个关键步骤:首先绑定支持长文本与重写的AI模型;其次构建YAML模板以约束语义、统一风格;接着通过命令行高效执行并发任务;还可利用协同工具进行审阅驱动式修改;最后能通过PythonSDK深度定制条件化改写逻辑,满足复杂需求。

时间:2026-05-23 08:42
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程