智能体的尽头是Harness基建！上海交大深度解读Harness

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

智能体的尽头是Harness基建！上海交大深度解读Harness

热心网友时间：2026-04-22

转载

决定智能体落地成败的关键，已经从单纯榨取模型内部算力，彻底转移到了构建强大的外部认知基础设施上

大模型层出不穷，榜单分数屡创新高，这已是常态。但一旦将这些“聪明”的模型接入真实的业务流，情况往往就变了味儿——崩溃、失控、意料之外的错误接踵而至。问题出在哪儿？一个核心判断是：决定智能体落地成败的关键，已经从单纯榨取模型内部算力，彻底转移到了构建强大的外部认知基础设施上。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

来自上海交通大学、中山大学、上海创新研究院、卡内基梅隆大学及OPPO的联合研究团队，近期深入剖析了智能体技术的演进脉络。他们的工作清晰地揭示，正是记忆、技能、协议与运行环境（Harness）这四大外部支柱，如何将模型脆弱的概率生成，重塑为稳定可靠的工程生产力。

认知能力的结构性外移

认知科学家Donald A. Norman曾提出一个深刻概念：“认知制品”。其核心在于，外部工具并未改变人类生理结构，却直接改变了任务本身的性质。回望历史，人类文明的发展就是一部认知不断外化的史诗：文字将易逝的生物记忆固化为物质记录，计算机将繁重的算术劳动转化为可编程的指令。

如今，大语言模型智能体正经历着同样的历史进程。外部环境的介入，正在将困难的回忆任务转化为简单的识别任务，将充满随机性的即兴生成转化为确定性的结构化组合。

正如论文总览图所揭示的，人类认知外化史与LLM智能体的能力外移路径呈现出惊人的平行映射。模型的能力正从隐藏的权重参数、有限的上下文窗口，一路向外迁移到记忆、技能、协议与Harness这些外部基础设施之中。

智能体社区的研究重心，清晰地走过了一条“由内而外”的迁移路线。早期阶段，知识、推理习惯乃至“世界观”都被压缩在模型的数十亿参数中。这种“能力在权重中”的模式存在结构性短板：工程师极难对局部事实进行针对性更新，也无法为用户提供低成本的个性化定制。

随后，焦点转移到了提示词工程和上下文窗口。通过检索增强生成（RAG）和思维链（CoT）等技术，开发者尝试在运行时动态注入外部文档和指导。然而，上下文窗口是稀缺资源，且会话一旦结束，所有累积的工作状态便瞬间归零，无法持久。

现阶段的工程重心，已经全面转向模型外部的持久化基础设施。可以说，一个智能体在复杂业务中的可靠性，几乎完全取决于其外部的记忆库、工具注册表、协议定义、沙盒隔离机制以及审批循环。

从这个宏观视角审视，Harness稳稳占据了整个架构的中心。它如同一个统管一切的基座，记忆、技能和协议围绕其有序组织。而沙盒、可观测性、评估、审批和子智能体编排等运行时机制，则负责将这三类独立的外化模块无缝对接，最终形成一个真正可治理、可运维的系统。

记忆与技能的持久化封装

记忆系统，本质上解决的是智能体在时间维度上的连续性负担。没有外部记忆的模型，每一次API调用都等同于一次“严重失忆”后的重启。为了应对复杂的长周期任务，系统需要将状态信息细分为四个清晰的层次。

工作上下文是当前任务的实时中间状态，包括打开的文件、临时变量、部分完成的计划和执行检查点。它确保智能体在任务意外中断后，能精准无误地从断点恢复。情景经验则记录过去实际发生的运行轨迹，涵盖决策点、工具调用过程、失败教训和反思日志。这些真实记录作为具体先例，能帮助智能体避免在同一个坑里反复跌倒。

更进一步，语义知识超越了单一事件，抽象为领域事实、通用启发式规则、项目规范等，通常以知识库形式存在。个性化记忆则专门记录特定用户或环境的稳定信息，如用户偏好、使用习惯和反复出现的约束条件。将其独立出来，能让智能体跨会话无缝适应用户，同时避免敏感数据污染全局的通用知识。

在工程实现上，记忆架构的演进路径是从简单粗暴走向精细化管理。早期的单一上下文架构将所有历史记录直接塞入提示词，容量扩展性极差，模型在背负沉重历史包袱的同时，还要消耗大量算力解决当前问题。

当前工业界的主流模式是“上下文结合检索存储”：只在提示词中保留近期的工作状态，长周期的追踪记录则存储在外部数据库，按需检索。更为先进的分层记忆与编排架构开始引入操作系统的设计理念，区分冷热数据并在不同存储层级间交换，同时引入显式的提取、巩固和遗忘机制。最前沿的自适应记忆系统则不再依赖固定规则，而是根据经验动态调整路由决策，例如通过强化学习持续优化检索策略。

然而，审视记忆系统时必须高度警惕其隐蔽的故障模式。当外部业务环境已变，检索出的记忆仍是旧版本时，陈旧的记忆会向模型提供完全扭曲的问题表征。为了节省存储空间而过度抽象的记忆，会丢失关键操作细节，导致模型在决策点失去抓手。更危险的是，一旦错误的执行记录或冲突的前提条件被写入持久化存储，记忆投毒会在未来的检索中持续污染模型的推理基座。

如果说记忆系统解决了连续性问题，那么技能系统解决的则是执行稳定性的问题。反复让模型在推理过程中“重新发明”工作流，必然导致关键步骤遗漏或工具使用的随机性。技能，远不止一个工具接口，它是一种高度可复用的专业知识封装。

一个完整的技能包含三大要素：操作程序、决策启发式规则和规范约束。操作程序是任务的执行骨架，负责将复杂工作拆解为具体步骤、依赖关系及明确的终止条件。决策启发式规则专门处理分支和异常的经验法则，当工具报错或观察结果存在噪音时，技能内部编码的默认选择能有效降低模型的决策成本。规范约束则是行为边界的安全护栏，规定前置的安全检查、过程中的权限阻断以及必须产生的验证证据。

技能要在系统中真正运转起来，需要一套精密的调度流水线。首先，规范化说明像开发文档一样声明技能的功能、适用范围和前置条件。系统依靠注册表和检索机制进行发现与匹配，精准筛选最合适的技能模块。为了避免信息过载，系统常采用渐进式披露的分层加载策略，最初只暴露名称和简短描述，确认适用后才加载详细执行指南。

接着，技能的业务逻辑必须进行执行绑定，连接到具体的底层工具或文件操作上以产生实际影响。高级能力往往通过组合机制实现，由多个低级技能通过串行、并行或条件路由的方式拼装而成。

优秀的技能系统自身具备强大的生长能力。除了人类工程师直接编写的专家内容，系统还能从记忆系统存储的大量交互轨迹中提取经验蒸馏，将反复验证有效的工作模式固化为新技能。智能体还能在沙盒中自主探索环境发现新技能，或者将现有的多个技能模块直接打包，进行组合生成。

交互协议与运行时环境治理

智能体在真实世界中不仅需要自我思考，更需要与异构工具、人类审核员以及其他智能体协同工作。协议层解决的，正是这种跨越边界的协作负担。没有明确的契约，模型每一次发起调用都像是在玩一场高成本的猜谜游戏。

协议将模糊的自然语言推理，强制转化为四个维度的确定性契约。

调用语法彻底消除格式猜测，规定了参数名称、数据类型和返回结构，模型只需按图索骥进行“填空”。生命周期语义专门处理多步协同，明确合法的状态流转、交接机制以及任务完成判定标准。权限与信任边界将商业安全管控落实到代码层面，把授权范围、数据流向限制转化为机器可执行的硬性检查。发现元数据则支持系统资源的动态探测，让智能体能主动查询可用资源，彻底抛弃了将工具硬编码在提示词中的陈旧做法。

当前活跃的协议家族已经形成了清晰的生态分化。智能体-工具协议（如Anthropic提出的模型上下文协议MCP），提供了一种标准化方式，让智能体能够跨越异构服务发现并调用工具，解耦了特定模型与特定工具的深度绑定。智能体-智能体协议（如A2A）标准化了多智能体之间的能力发现、任务委派和流传输，成为构建大规模多智能体网络的基石。智能体-用户协议则专门处理执行状态呈现、UI结构输出以及流式事件渲染，让前端交互彻底告别了随意的文本拼接。

然而，所有的外化认知模块，必须依托一个统管一切的治理层才能发挥威力，这就是Harness工程的核心价值所在。Harness不是零散零件的集合，它是将认知模块编织成连贯行为的控制中枢。

一个成熟可靠的Harness架构，必须在六个核心维度上进行精细化设计。智能体循环与控制流构建了感知、检索、规划、行动、观察的时间主轴，并实施严格的边界控制，例如设置最大步数限制和单步成本上限，以防止资源枯竭。沙盒与执行隔离为智能体提供独立的文件系统快照和受限的网络访问，这既是保护物理环境的安全防线，也是为模型排除噪音干扰的认知边界。

人类监督与审批门控在真实业务中不可或缺。系统需要在修改代码、转移资金等高危动作前设置物理拦截点，强制等待人类操作员的授权确认。可观测性与结构化反馈是系统自进化的基础，Harness需要结构化地记录每一次模型调用和决策分支，这既满足了人类安全审计的需求，也为模型微调提供了高质量的数据源泉。

配置、权限与策略编码将业务治理规则外化，按照用户、项目、组织三个层次叠加权限，让同一个底层模型在不同配置下展现出截然不同的行为边界。上下文预算管理则像操作系统的内存调度器一样运转，动态决定多少Token留给历史总结，多少留给接口描述，并基于当前任务阶段进行实时的优先级驱逐。