当前位置: 首页
AI教程
Harness Engineering 工程学:将 AI Agent 从玩具变为实用工具

Harness Engineering 工程学:将 AI Agent 从玩具变为实用工具

热心网友 时间:2026-05-27
转载

什么是 Harness Engineering?一门让 AI Agent 从玩具变武器的工程学

模型从来不是最难的那部分。从来不是。

其实,在“Harness”这个词诞生之前,很多团队就已经在埋头搭建类似的东西了。那时候没有现成的术语,大家做的都是同一件事:摸着石头过河,然后撞上一堵又一堵无形的墙。

比如,在“长运行Agent”这个概念被正式提出前,我们就已经在构建能稳定运行数小时、产出正确结果、中断后还能无缝恢复的工作流。在相关论文发表之前,我们就在实践DAX查询的程序化校验、反馈回路和LLM-as-Judge。

这些实践并非源于文献,而是被现实需求硬生生逼出来的。

但最令人困扰的,或许不是“墙”。墙会拦住你,让你知难而退。而我们遇到的,更像是一扇看不见的玻璃门——你以为前方畅通无阻,直到“砰”的一声撞上去,才发现自己早已头破血流。前沿探索的代价,往往就是这些伤疤。

走在最前沿 ≠ 走在最前沿且不受伤。前沿本身,就是伤疤的来源。

更让人无奈的是,Demo往往跑得太漂亮了。利益相关方看着流畅的演示,很难理解背后那些复杂的“脚手架”为何必要。

“Demo不是好好的吗?为啥搞这么复杂?”

问题在于,万一它坏了呢?六周后,生产环境发生数据漂移,开发环境无法完美复现,排查无从下手——到了那时,谁还会记得当初那个漂亮的Demo?

在没有漂移检测和可靠工程框架的情况下,盲目地给Prompt加示例、堆砌工具、拆分子Agent,就像试图把果冻钉在墙上。非确定性行为,叠加“再加一个功能试试”的心态,再配上缺失的监控,无异于在布满纸割伤的酒精池里反复横跳。这不能叫“走在最前沿”,这更像是一种工程上的“自残”。

给东西命名,就是给门上装把手

共享术语的价值就在于此。有了共同的语言,下一支团队就不必再撞上那扇玻璃门。他们能看到门,找到把手,然后从容地走进去。

这就是Harness Engineering为行业带来的东西。它不是在给先行者颁发安慰奖,而是为所有人建立了一套共同语言,用来讨论如何将Agent工作流可靠地送上生产环境,无需每次都从零开始解释。

现在,这件事有名字了。

那个包裹大语言模型、将其原始文本输出转化为可靠系统行为的工程化运行时,就叫Harness(外壳/挽具)。而设计、构建和运维这个Harness的学科,就叫Harness Engineering(外壳工程学)。

这个学科,作为一个被命名的概念,诞生仅约12个月;但作为一种工程实践,它已经存在了大约三年。

一句话说清楚 Harness 是什么

Harness是包裹LLM的工程化运行时,负责把模型的原始文本输出转化为可靠的系统行为。

具体来说,Harness承担了六件模型自身无法独立完成的事

# 职责 一句话解释
1 上下文组装 决定每次调用模型时,它能看到什么信息。
2 工具契约 & 校验 定义模型能做什么,不能做什么,并确保调用合规。
3 记忆 & 持久化状态 在多次调用之间记住发生了什么,维持对话或任务状态。
4 可观测性 监控产出:包括链路追踪、漂移检测、评估关卡等。
5 恢复机制 出错时怎么办:提供回滚、重试、重放等策略。
6 编排调度 协调多个模型或多个Agent之间的协同工作。

这里需要澄清一个最常见的误解:

Harness 不是 try-catch 包一层,防止模型挂掉。

它是一个精心设计的工程化环境,让一个有能力的模型能够完成它自己原本无法胜任的、更庞大、更持久、更自主的任务。

一个好的驾驶舱,其价值不只是防止飞行员坠机,而是让飞行员能够执行那些在糟糕驾驶舱里根本不可能完成的任务。

记住这个区别。大多数初次接触这个概念的人,都容易在这里产生误解。

这个学科有明确的“出生日期”

大多数工程学科没有确切的诞生时刻,但Harness Engineering有——2024年5月。

当时,普林斯顿的一个研究团队(Yang, Jimenez, Wettig, Lieret, Yao, Narasimhan, Press)发表了一篇论文《SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering》,后来被NeurIPS 2024收录。

他们做了一件事后看来显而易见、但当时却颇具启发性的事:他们锁死了模型。 使用固定的GPT-4 Turbo,不进行微调,也不玩复杂的Prompt技巧。

然后,他们在模型和代码库之间搭建了薄薄的一层,称之为Agent-Computer Interface(ACI)。整个实验只改动这一层。ACI仅包含四个组件:

  1. 文件搜索最多返回50条结果
  2. 一个有状态的文件查看器,一次看100行,并记住位置
  3. 编辑时运行Linter,直接拒绝语法有问题的补丁
  4. 上下文窗口管理器,随着交互记录增长而压缩旧信息

仅此而已。同一个模型,同一个权重,同一个基准测试。

结果,在SWE-bench基准测试上的成绩从3.8%提升到了12.47%。三倍以上的提升,全部来自于接口设计的改进。

这个数字本身令人震撼,但更震撼的是其背后的含义:SWE-agent团队通过可控实验证明,模型周围的运行时环境,其重要性可能超过模型本身。

在此之前,Agent研究的一个隐含假设是“更好的Agent需要更好的模型”。而ACI的消融实验表明:即使锁定模型,通过设计更好的接口,也能制造出更强大的Agent。

这篇论文,堪称Harness Engineering学科的基础设计文档。之后出现的各种Harness模式、工作流设计、协议栈讨论乃至生产环境回顾,都可以看作是对SWE-agent所证明原则的泛化和延伸。

1947 年的驾驶舱研究:一切思想的源头

当然,SWE-agent的作者并非凭空发明了这个原则。他们明确标注了思想来源:人因工程学(Human-Factors Engineering)。这条思想脉络的历史比计算机本身还要悠久。

1947年,Paul Fitts和Richard Jones发表了《460起飞行员操作失误事故的因素分析》。这项研究受美国空军航空医学实验室委托,起因是战后一系列被简单归因为“飞行员失误”的坠机事故。

Fitts和Jones采访了飞行员,检查了驾驶舱。他们发现的并非飞行员失误。

他们发现:

  • 相同的控件,在不同飞机上的布局完全不同;
  • 看起来一模一样的操纵杆,功能可能天差地别;
  • 在高压力情境下,经验丰富的飞行员会稳定地误触错误的控制器——因为驾驶舱的设计从未考虑过人类在应激状态下的实际反应模式。

他们的结论彻底碘伏了整个领域

别再去训练更好的操作员了。重新设计环境。驾驶舱才是变量。

这个结论催生了人因工程学,其思想经由Don Norman的《设计心理学》(1988)、Atul Gawande的《清单革命》(2009)以及外科手术和ICU的清单实践得以传承——这些实践通过改变环境而非苛求操作者,实实在在地拯救了无数生命。

SWE-agent论文所做的,正是将LLM置于“操作员”的位置,并套用了同一套逻辑。ACI就是为Agent重新设计的驾驶舱。

这意味着,Harness Engineering被嵌入了一段拥有八十年历史、且成果可度量的学术传统之中。它不是一时兴起的潮流,而是那条被反复验证的原则的最新实例:

当操作员不断重复同一个错误——环境才是变量。

“机械同理心”:赛车手的智慧,程序员的方法论

驾驶舱是一个绝佳的视角。另一个同样能引起软件工程师共鸣的视角,叫做机械同理心(Mechanical Sympathy)

这个词由传奇赛车手Jackie Stewart提出。他说:你不理解车怎么工作,你就开不快。

Martin Thompson在2011年左右将这个理念引入软件工程领域,并由此创造了LMAX Disruptor——它证明了,只要代码尊重底层硬件(CPU缓存行、分支预测、内存层级、伪共享、缺页中断)的实际工作方式,就能在普通硬件上实现每秒数百万次的操作处理。

机械同理心 = 编写适配底层运行机制的代码,而不是与之对抗。

Harness Engineering,就是将机械同理心应用在一个全新的底层之上。这个新底层 = LLM + 上下文内存 + 注意力预算。

和所有底层一样,它也有有名字的失败模式

传统软件(CPU底层) AI Agent(LLM底层)
写代码要适配 CPU 怎么跑 写 Agent 要适配 LLM 怎么跑
…内存怎么跑 …上下文内存怎么跑
…磁盘怎么跑 …注意力预算怎么跑
需规避:缓存未命中、分支预测失败、伪共享、缺页 需规避:上下文腐烂、上下文恐慌、迷失中间、U 型注意力

这四个AI侧的失败模式,都是真实的、有明确定义的、可测量的,生产环境中的工程师每天都在与之搏斗:

  • 上下文腐烂(Context Rot):当上下文窗口被陈旧或低信息量的token塞满后,模型性能会可观测地下降。
  • 上下文恐慌(Context Panic):Agent在上下文压力下开始跳过步骤、短路计划过程。
  • 迷失中间(Lost-in-the-Middle):一个被反复验证的现象——对于长Prompt,模型对中间部分信息的注意力显著低于开头和结尾。
  • U 型注意力(U-Shaped Attention):对上述现象的更广义概括。

两年前,这四个术语一个都不存在。 而现在,它们都有了对应的Harness补救模式:上下文压缩、工作记忆纪律、检索排序、结构化笔记、子Agent隔离等。

至此,三条时间线串联在一起:

  • 2011年左右:硬件层面的机械同理心教会程序员尊重缓存行和内存布局。
  • 2024年5月:SWE-agent标志着机械同理心从CPU跨越到了LLM。同一个洞见,新底层,让Agent性能翻了三倍——且未改动模型。
  • 现在:Harness Engineering正是这一洞见向生产级Agent系统的全面泛化

三代同样的核心思想,在越来越高的抽象层次上重复上演:CPU → Agent-Computer Interface → 完整的Agent运行时。

从实践到学科:2025末到2026初的术语大合流

搭建Harness的实践,远比它的名字古老。

在2024到2025年,所有真正在交付Agent系统的团队,早就在模型周围搭建了工具层、上下文组装管线、校验器、记忆分层、可观测链路和恢复回路。任何在真实代码库上深度使用过Claude Code、OpenAI Codex或Cursor的人都会清楚——光靠模型本身是远远不够的。

但那时缺乏共享词汇。每个团队各有各的叫法:“wrapper”、“agent loop”、“编排层”、“运行时”。每个人都觉得自己搞的是一套独门秘籍。

然后——命名的时刻到来了。

时间线复盘

2025 年下半年:Anthropic 率先播种术语

当大多数团队还在使用“wrapper”这类泛称时,Anthropic已经开始在正式的工程文章中使用“harness”这个词。

  • 2025年9月28日,《Effective Context Engineering for AI Agents》将上下文工程命名为一个独立的工程关注点,拥有自己的模式,独立于Prompt工程,并成为Harness Engineering的关键组成部分。
  • 2025年11月25日,《Effective Harnesses for Long-Running Agents》更进一步,将Harness本身命名为一个独立的工程产物,附带一套独立的设计问题集。

2026 年 2 月:Mitchell Hashimoto 一锤定音

HashiCorp联合创始人Mitchell Hashimoto在一篇关于个人AI采纳历程的博客中,使用“harness engineering”来描述通过改进Harness而非Prompt来系统性修复Agent错误的实践

Anthropic创造了这个词,Hashimoto则将其确立为一个学科的名称。一锤定音。

2026 年 2 月 11 日:OpenAI 正式跟进

OpenAI在一篇关于使用Codex Agent纯靠代码构建百万行生产代码库的文章中给出了正式定义。他们指出,主要的工程挑战并非模型能力,而是设计模型周围的环境、反馈回路和控制系统。

这篇文章让术语机构化了——三家顶尖AI实验室中,有两家开始在公开工程文章中使用同一个词。

2026 年 2-3 月:行业跟进

Martin Fowler的网站、LangChain、Cobus Greyling等纷纷发表跟进文章,将这一学科提炼成工程师可以直接引用的公式。

其中,LangChain压缩出了一个最精炼的版本:

Agent = Model + Harness

模型提供原始智能。Harness则负责管理记忆、工具、重试、人类审批、可观测性——让模型能够专注于推理本身。

2026 年 3 月 23 日:Anthropic 发布参考架构

《Harness Design for Long-Running Application Development》——这是迄今为止该学科最完整的参考设计。它不是一篇短文,而是一份完整的参考架构,涵盖了上下文组装、记忆分层、评估关卡、恢复回路以及长运行Agent所需的全部运维模式。

如果你只读一篇关于Harness设计的文档,就读这篇

2026 年 4 月:术语普及

在各大AI工程团队、厂商博客和生产环境回顾中,“harness engineering”已成为标准工作用语。

总结

  • 作为有名字的学科:约12个月大。
  • 作为工程实践:大约3岁。

什么归 Harness,什么归模型?

设计一个有用的Agent,关键在于精确地知道Agent的哪些维度由模型负责,哪些由Harness负责。

一个最清晰的模型包含六个维度

Agent = 感知 + 大脑 + 记忆 + 规划 + 行动 + 协作
维度 谁负责 一句话
感知(Perception) Harness 接收和预处理输入:文本、图片、结构化数据、工具响应。
大脑(Brain) 模型 推理引擎。通常由Harness路由到不同的模型家族:快速模型处理提取,较强模型负责编排,最强模型处理高风险决策。
记忆(Memory) Harness 独立的工程学科:通常分为短期、工作、长期三层,与推理引擎解耦。
规划(Planning) Harness 模式 要么采用ReAct循环(每步推理+行动),要么采用Plan-and-Execute(先分解任务,可并行的并行执行)。
行动(Action) Harness 驱动 越来越趋向于“代码即行动”:Agent编写一段短脚本,批量调用工具、在代码内处理重试逻辑,一次性返回干净结果。
协作(Collaboration) 协议层 由四个开放标准在不同层次上进行治理。

四个开放标准,各管一层:

协议 全称 管什么
MCP Model Context Protocol Agent 和工具之间的垂直接口。
A2A Agent-to-Agent Protocol Agent 和 Agent 之间的水平接口。
AG-UI Agent-User Interface Agent 和人类用户之间的前端接口。
Agent Skills Open Standard 能力获取接口,定义Agent如何加载新技能。

其中,MCP由Anthropic开源,并于2025年12月捐赠给Linux基金会。Agent Skills也作为开放标准公开发布在 agentskills.io。

结语:一句话总结

Harness Engineering 是把机械同理心应用在 LLM 这个新底层上的工程学科。

它让Agent从“Demo跑通了”进化到“生产环境跑不坏”。

它的思想源头可以追溯到1947年的驾驶舱研究,它的关键实验证据来自2024年的SWE-agent论文,而它作为一个有名字的学科,则诞生于2025-2026年的术语大合流。

所以,下次再有人和你讨论AI Agent时,别只问“用哪个模型”。

不妨问一句:你的 Harness 是怎么设计的?

如果对方愣住了——你可以把这篇转给他。

来源:https://cloud.tencent.com.cn/developer/article/2675131

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
如何选择PPT软件:提升演示效果的关键指南

如何选择PPT软件:提升演示效果的关键指南

制作PPT用什么软件好?2024年五大主流工具深度评测 无论是职场汇报、学术答辩还是项目路演,一份专业且吸引人的PPT演示文稿都至关重要。面对众多制作工具,如何选择最适合自己的那一款?本文将对五款主流的PPT软件进行全方位对比分析,从功能、协作、设计到易用性,助您根据核心需求做出最佳决策,高效打造令

时间:2026-05-27 23:01
员工食堂管理制度制定指南:保障食品安全与提升满意度

员工食堂管理制度制定指南:保障食品安全与提升满意度

员工食堂管理制度旨在保障食品安全与员工满意度,通过提供安全、营养、多样的餐饮服务,实现精细化运营与成本控制。制度明确服务标准,包括菜品多样化、严格安全流程及营养搭配,安排错峰就餐以优化环境,并建立反馈机制收集建议。费用管理需合理分担,通过精细措施控制运营平衡。

时间:2026-05-27 22:55
WPS AI写作工具使用指南与高效写作范文分享

WPS AI写作工具使用指南与高效写作范文分享

在信息爆炸的时代,高效写作已成为职场人士与内容创作者的必备技能。无论是撰写工作报告、学术研究,还是日常的社交媒体更新,我们都面临着时间有限而产出压力巨大的挑战。 因此,许多人都在寻找答案:“如何利用AI工具提升文章写作效率?”这反映了大家对于智能化写作助手、简化创作流程的普遍需求。毕竟,谁不希望在短

时间:2026-05-27 22:55
AI制作PPT技巧提升教学与营销效果

AI制作PPT技巧提升教学与营销效果

在市场营销与教育培训领域,一场关于演示效率的深度变革正在悄然推进。当时间成为最宝贵的竞争资源,当专业、高效的内容呈现成为刚需,人工智能技术正从根本上重塑PPT制作的流程与标准。如今,问题的核心已从“如何制作PPT”转向“如何运用AI工具高效产出专业级演示文稿”。这场变革的价值,远不止于节省时间,更在

时间:2026-05-27 22:54
Chat Whisperer 对话技巧与高效使用指南

Chat Whisperer 对话技巧与高效使用指南

Chat Whisperer是什么 Chat Whisperer是一款专为企业和专业人士设计的企业级AI助手与智能聊天机器人解决方案。它由资深技术团队精心打造,核心目标在于深度整合生成式人工智能、机器学习与自然语言处理等前沿技术,旨在全面优化企业工作流程、显著提升客户服务效率并降低运营成本。 这不仅

时间:2026-05-27 22:54
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程