TACO如何让CLI智能体在迭代中自动清理冗余上下文

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

TACO如何让CLI智能体在迭代中自动清理冗余上下文

热心网友时间：2026-05-08

转载

在代码智能体从基础模型走向自主编程袋里的进程中，命令行终端（CLI/Terminal）正成为其融入真实软件工程工作流的关键入口。近期一篇关于代码智能的综述（arXiv:2511.18538）也指出，实际部署中的智能体不仅要能生成代码，更要能处理大型代码库上下文、集成开发工具链并驾驭复杂工作流。正是在这种背景下，当CLI智能体被用于执行更长期、更复杂的终端任务时，一个新的瓶颈开始显现：问题未必是上下文窗口不够大，而是在多轮交互中，上下文信息变得越来越“脏”。然而，终端输出又不能被简单地一删了之。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

错误信息、文件路径、测试名称、构建目标、依赖版本等关键线索，往往就隐藏在这些冗长的日志之中。

针对这一挑战，来自曼彻斯特大学、北京航空航天大学、香港科技大学以及Multimodal Art Projection（MAP）的研究团队联合提出了TACO（Terminal Agent Compression）。这是一个无需训练、即插即用的终端智能体自进化观测压缩框架。TACO的核心在于，让智能体从真实的交互轨迹中学习压缩规则，在过滤低价值终端输出的同时，尽可能保留后续决策所必需的关键行动线索。

实验结果表明，TACO在TerminalBench 1.0/2.0以及多个终端相关基准测试上，同步提升了任务成功率和Token使用效率。

长程CLI智能体的困境：不是记不住，而是信息太杂乱

CLI智能体每执行一步命令，都会将终端输出带入下一轮决策。任务越长，安装日志、编译输出、测试结果、构建跟踪等低价值的环境反馈就越容易堆积，挤占上下文空间，并淹没真正关键的行动线索。

这一点在TerminalBench 2.0的轨迹分析中得到了验证。如图1所示，在Qwen3-Coder-480B、DeepSeek-V3.2和MiniMax-M2.5等模型的运行轨迹中，原始提示（raw prompt）中有相当一部分内容可以被人工判定为低价值冗余，比例高达24.6%至44.1%。这清楚地表明，更长的上下文并不总是意味着更多的有效信息，很多时候只是带来了更多的噪声。

然而，终端输出又不能被粗暴地全部删除。错误信息、文件路径、命令参数、测试名称、构建目标、依赖版本、二进制符号等关键信息，往往就藏在这些日志里。全部保留会让上下文越来越杂乱无章，而简单的压缩又可能误删后续决策所需的关键线索。

这也意味着，解决方案不能仅仅是“把终端输出变短”那么简单。

因此，终端观测压缩的真正难点不在于“压缩”，而在于“判断”：哪些内容可以安全过滤，哪些信息必须保留。更棘手的是，这个边界并非固定不变。同样是编译输出，在一个任务里可能只是冗余日志，在另一个任务里却可能包含关键的编译参数；同样是安装日志，在普通任务中可以大量过滤，但在处理依赖冲突时，版本号和错误信息可能就是下一步决策的依据。

为了探究解决方案，研究团队比较了三类静态压缩方法（基础模型选用Qwen3-Coder-480B）：

种子规则（Seed Rules）：少量人工预设的规则，例如压缩`pip install`、`apt-get`、`git clone`等高输出命令。
高质量规则（High-Quality Rules）：更多人工整理的高质量规则，覆盖范围更广，但仍然是固定规则。
LLM摘要（LLM Summarize）：直接让大语言模型对终端输出进行摘要压缩。

如下图所示，静态方法虽然可以降低Token开销，但性能表现并不稳定。LLM摘要的Token成本最低，但任务准确率反而明显下降；TACO的Token成本并非最低，却取得了最高的准确率和更小的方差。这说明，终端观测压缩的关键并非“压得越狠越好”，而在于能否在减少低价值输出的同时，稳定地保留后续决策所需的关键线索。

相比之下，TACO的核心优势在于“自进化（self-evolving）”：它会在真实的交互轨迹中观察哪些规则有效、哪些规则可能导致压缩过度，并将可复用的规则沉淀到全局规则池中。换言之，TACO并非用一套固定策略处理所有输出，而是让智能体在不同工作流中逐步学会：哪些观察可以安全过滤，哪些行动线索必须保留。

TACO：让终端智能体学会过滤低价值观察

TACO是一个面向终端智能体的、即插即用的自进化观测上下文压缩框架。其核心思路彻底摒弃了“人工预设截断”或“LLM实时总结”的传统路径，转而构建了一个轻量级的自进化规则引擎。在TACO中，“规则”并非模糊的自然语言提示，而是由触发条件、保留模式和剔除模式组成的明确函数。

为了让这些规则能够动态适应高度异构的终端环境，TACO设计了一套“任务内动态纠偏、全局跨域沉淀”的闭环流转机制。具体而言，整个自我演化过程包含以下三个核心阶段：

第一阶段：终端输出压缩。 在每个交互步骤中，智能体执行命令并获得原始终端输出。TACO会根据当前任务的活跃规则集对输出进行压缩。对于包含显式错误、异常、失败信号或关键诊断信息的输出，TACO采取保守策略，避免过度压缩。对于非关键、重复性强的输出，例如安装进度、编译流水、下载日志、重复的测试信息，TACO会通过规则过滤掉低价值部分。

第二阶段：任务内规则集演化。 不同任务会产生不同类型的终端输出，固定规则很难覆盖所有情况。因此，当TACO遇到当前规则集无法有效处理的某类高输出命令时，会生成新的压缩规则，并将其加入当前任务的活跃规则集。同时，TACO也会监控压缩是否过度。例如，如果智能体后续重新请求完整输出、重复执行同一命令，或者表现出因信息缺失而导致的行为异常，这些都会被视作潜在的“过度压缩”信号。此时，TACO会降低相关规则的使用优先级，并生成更保守的替代规则。

第三阶段：全局规则池演化。 许多终端压缩模式是跨任务可复用的。例如，`pip install`的下载进度通常可以压缩，`apt-get`的“Unpacking / Setting up”行通常信息密度较低，`git clone`的传输进度大多是噪声，而编译输出中的“error”、“warning”、“undefined reference”则必须保留。TACO会将任务中验证有效的规则写回全局规则池。后续任务开始时，TACO会从全局规则池中检索相关规则，用于初始化当前任务的活跃规则集。随着更多任务的执行，全局规则池会不断积累高质量的压缩知识。

实验验证：不止节省Token，更提升任务成功率

TACO在TerminalBench 1.0、TerminalBench 2.0以及多个终端相关基准测试上进行了评估，包括SWE-Bench Lite、CompileBench、DevEval和CRUST-Bench。

在TerminalBench上，将TACO集成到Terminus-2框架后，多种强力模型都获得了稳定的性能提升。

这些提升说明，终端观测压缩并不仅仅是为了节省上下文空间。过滤掉低价值输出后，模型反而更容易聚焦于任务相关信息，从而提升了长程任务的完成率。

相同Token预算下，TACO表现更优

一个很自然的疑问是：TACO带来的提升，是否仅仅是因为智能体被允许运行了更多步骤？

为了回答这个问题，论文进一步比较了在固定Token预算下，基线方法和TACO的准确率。结果显示，在消耗相同Token数量的情况下，TACO在六个测试模型上都获得了更高的准确率。

这说明TACO并非简单地通过增加交互开销来换取性能，而是在相同的上下文预算内，提高了有效信息的密度。

这个结果也回应了一个更实际的问题：对于长程智能体而言，真正重要的不只是“总Token数减少了多少”，而是每个Token里有多少信息真正服务于下一步的决策。

跨基准泛化能力：规则并非仅适配特定测试集

除了TerminalBench，TACO也在多个其他终端相关基准上进行了验证。

可以看到，在SWE-Bench Lite、DevEval、CRUST-Bench等任务上，TACO在提升准确率的同时降低了总Token消耗；在CompileBench上，准确率保持不变，但Token消耗显著下降。

这表明TACO学习到的规则并非针对某一个特定基准测试的特殊技巧，而是在不同的终端工作流中，捕获了具有通用性的、可复用的压缩模式。

自进化何时稳定？看规则池的收敛

自进化方法还会带来一个实际问题：如果系统一直生成和更新规则，什么时候才算收敛稳定？

TACO没有直接使用测试集准确率来判断是否停止演化，因为这可能引入评测泄露。研究团队转而观察全局规则池中Top-K规则的稳定性：如果连续多轮演化后，排名靠前的规则大部分保持不变，说明系统已经学习到一组稳定且可复用的压缩规则。

具体而言，论文使用“保留率（Retention）”来衡量相邻两轮演化中Top-K规则的重合比例。保留率越高，说明有效规则的前沿越稳定。

图中上半部分显示，三个模型的Top-30规则保留率在多轮演化后逐渐超过90%；下半部分显示，当保留率稳定后，任务准确率的滚动标准差也明显下降。也就是说，规则池的稳定与性能的稳定是同步出现的。因此，规则保留率可以作为TACO一个实用的收敛信号：当高价值规则集合基本不再变化时，继续自进化带来的收益就会变小。

案例分析：TACO究竟删了什么，留了什么？

上述实验说明了TACO能提升准确率和Token效率。接下来更重要的问题是：TACO到底删掉了什么，又保留了什么？下面通过三个真实轨迹片段来观察它的压缩行为。

案例一：将万字符安装日志压缩至73字符。 在TerminalBench 2.0的“adaptive-rejection-sampler”任务中，智能体需要安装R运行时，于是执行了：`apt-get install -y r-base`。原始输出超过10,000字符，包含大量重复的“Unpacking”和“Setting up”行。对后续决策而言，智能体并不需要完整阅读所有安装过程。它真正需要知道的是：安装是否还在进行、有没有报错、最终是否成功。TACO在任务中演化出针对这类输出的规则，将10,071字符的输出压缩到仅73字符，只保留当前的安装状态摘要。

关键不在于压缩比例本身，而在于：TACO没有粗暴地截断输出，而是根据命令类型和任务状态，识别出了“进度噪声”与“状态信号”的区别。

案例二：保留维系任务连续性的关键线索。 另一个例子来自“sqlite-with-gcov”任务。在该任务中，智能体需要编译SQLite并启用gcov覆盖率。原始`make`输出中有大量文件复制列表和冗长的编译命令。TACO会删除冗长的复制列表，但保留`-fprofile-arcs`、`-ftest-coverage`等与覆盖率相关的关键编译参数。