TACO如何让CLI智能体在迭代中自动清理冗余上下文
在代码智能体从基础模型走向自主编程袋里的进程中,命令行终端(CLI/Terminal)正成为其融入真实软件工程工作流的关键入口。近期一篇关于代码智能的综述(arXiv:2511.18538)也指出,实际部署中的智能体不仅要能生成代码,更要能处理大型代码库上下文、集成开发工具链并驾驭复杂工作流。正是在这种背景下,当CLI智能体被用于执行更长期、更复杂的终端任务时,一个新的瓶颈开始显现:问题未必是上下文窗口不够大,而是在多轮交互中,上下文信息变得越来越“脏”。然而,终端输出又不能被简单地一删了之。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
错误信息、文件路径、测试名称、构建目标、依赖版本等关键线索,往往就隐藏在这些冗长的日志之中。
针对这一挑战,来自曼彻斯特大学、北京航空航天大学、香港科技大学以及Multimodal Art Projection(MAP)的研究团队联合提出了TACO(Terminal Agent Compression)。这是一个无需训练、即插即用的终端智能体自进化观测压缩框架。TACO的核心在于,让智能体从真实的交互轨迹中学习压缩规则,在过滤低价值终端输出的同时,尽可能保留后续决策所必需的关键行动线索。
实验结果表明,TACO在TerminalBench 1.0/2.0以及多个终端相关基准测试上,同步提升了任务成功率和Token使用效率。

长程CLI智能体的困境:不是记不住,而是信息太杂乱
CLI智能体每执行一步命令,都会将终端输出带入下一轮决策。任务越长,安装日志、编译输出、测试结果、构建跟踪等低价值的环境反馈就越容易堆积,挤占上下文空间,并淹没真正关键的行动线索。
这一点在TerminalBench 2.0的轨迹分析中得到了验证。如图1所示,在Qwen3-Coder-480B、DeepSeek-V3.2和MiniMax-M2.5等模型的运行轨迹中,原始提示(raw prompt)中有相当一部分内容可以被人工判定为低价值冗余,比例高达24.6%至44.1%。这清楚地表明,更长的上下文并不总是意味着更多的有效信息,很多时候只是带来了更多的噪声。

然而,终端输出又不能被粗暴地全部删除。错误信息、文件路径、命令参数、测试名称、构建目标、依赖版本、二进制符号等关键信息,往往就藏在这些日志里。全部保留会让上下文越来越杂乱无章,而简单的压缩又可能误删后续决策所需的关键线索。
这也意味着,解决方案不能仅仅是“把终端输出变短”那么简单。
因此,终端观测压缩的真正难点不在于“压缩”,而在于“判断”:哪些内容可以安全过滤,哪些信息必须保留。更棘手的是,这个边界并非固定不变。同样是编译输出,在一个任务里可能只是冗余日志,在另一个任务里却可能包含关键的编译参数;同样是安装日志,在普通任务中可以大量过滤,但在处理依赖冲突时,版本号和错误信息可能就是下一步决策的依据。
为了探究解决方案,研究团队比较了三类静态压缩方法(基础模型选用Qwen3-Coder-480B):
- 种子规则(Seed Rules):少量人工预设的规则,例如压缩`pip install`、`apt-get`、`git clone`等高输出命令。
- 高质量规则(High-Quality Rules):更多人工整理的高质量规则,覆盖范围更广,但仍然是固定规则。
- LLM摘要(LLM Summarize):直接让大语言模型对终端输出进行摘要压缩。
如下图所示,静态方法虽然可以降低Token开销,但性能表现并不稳定。LLM摘要的Token成本最低,但任务准确率反而明显下降;TACO的Token成本并非最低,却取得了最高的准确率和更小的方差。这说明,终端观测压缩的关键并非“压得越狠越好”,而在于能否在减少低价值输出的同时,稳定地保留后续决策所需的关键线索。

相比之下,TACO的核心优势在于“自进化(self-evolving)”:它会在真实的交互轨迹中观察哪些规则有效、哪些规则可能导致压缩过度,并将可复用的规则沉淀到全局规则池中。换言之,TACO并非用一套固定策略处理所有输出,而是让智能体在不同工作流中逐步学会:哪些观察可以安全过滤,哪些行动线索必须保留。
TACO:让终端智能体学会过滤低价值观察
TACO是一个面向终端智能体的、即插即用的自进化观测上下文压缩框架。其核心思路彻底摒弃了“人工预设截断”或“LLM实时总结”的传统路径,转而构建了一个轻量级的自进化规则引擎。在TACO中,“规则”并非模糊的自然语言提示,而是由触发条件、保留模式和剔除模式组成的明确函数。
为了让这些规则能够动态适应高度异构的终端环境,TACO设计了一套“任务内动态纠偏、全局跨域沉淀”的闭环流转机制。具体而言,整个自我演化过程包含以下三个核心阶段:

第一阶段:终端输出压缩。 在每个交互步骤中,智能体执行命令并获得原始终端输出。TACO会根据当前任务的活跃规则集对输出进行压缩。对于包含显式错误、异常、失败信号或关键诊断信息的输出,TACO采取保守策略,避免过度压缩。对于非关键、重复性强的输出,例如安装进度、编译流水、下载日志、重复的测试信息,TACO会通过规则过滤掉低价值部分。
第二阶段:任务内规则集演化。 不同任务会产生不同类型的终端输出,固定规则很难覆盖所有情况。因此,当TACO遇到当前规则集无法有效处理的某类高输出命令时,会生成新的压缩规则,并将其加入当前任务的活跃规则集。同时,TACO也会监控压缩是否过度。例如,如果智能体后续重新请求完整输出、重复执行同一命令,或者表现出因信息缺失而导致的行为异常,这些都会被视作潜在的“过度压缩”信号。此时,TACO会降低相关规则的使用优先级,并生成更保守的替代规则。
第三阶段:全局规则池演化。 许多终端压缩模式是跨任务可复用的。例如,`pip install`的下载进度通常可以压缩,`apt-get`的“Unpacking / Setting up”行通常信息密度较低,`git clone`的传输进度大多是噪声,而编译输出中的“error”、“warning”、“undefined reference”则必须保留。TACO会将任务中验证有效的规则写回全局规则池。后续任务开始时,TACO会从全局规则池中检索相关规则,用于初始化当前任务的活跃规则集。随着更多任务的执行,全局规则池会不断积累高质量的压缩知识。
实验验证:不止节省Token,更提升任务成功率
TACO在TerminalBench 1.0、TerminalBench 2.0以及多个终端相关基准测试上进行了评估,包括SWE-Bench Lite、CompileBench、DevEval和CRUST-Bench。
在TerminalBench上,将TACO集成到Terminus-2框架后,多种强力模型都获得了稳定的性能提升。

这些提升说明,终端观测压缩并不仅仅是为了节省上下文空间。过滤掉低价值输出后,模型反而更容易聚焦于任务相关信息,从而提升了长程任务的完成率。
相同Token预算下,TACO表现更优
一个很自然的疑问是:TACO带来的提升,是否仅仅是因为智能体被允许运行了更多步骤?
为了回答这个问题,论文进一步比较了在固定Token预算下,基线方法和TACO的准确率。结果显示,在消耗相同Token数量的情况下,TACO在六个测试模型上都获得了更高的准确率。
这说明TACO并非简单地通过增加交互开销来换取性能,而是在相同的上下文预算内,提高了有效信息的密度。

这个结果也回应了一个更实际的问题:对于长程智能体而言,真正重要的不只是“总Token数减少了多少”,而是每个Token里有多少信息真正服务于下一步的决策。
跨基准泛化能力:规则并非仅适配特定测试集
除了TerminalBench,TACO也在多个其他终端相关基准上进行了验证。

可以看到,在SWE-Bench Lite、DevEval、CRUST-Bench等任务上,TACO在提升准确率的同时降低了总Token消耗;在CompileBench上,准确率保持不变,但Token消耗显著下降。
这表明TACO学习到的规则并非针对某一个特定基准测试的特殊技巧,而是在不同的终端工作流中,捕获了具有通用性的、可复用的压缩模式。
自进化何时稳定?看规则池的收敛
自进化方法还会带来一个实际问题:如果系统一直生成和更新规则,什么时候才算收敛稳定?
TACO没有直接使用测试集准确率来判断是否停止演化,因为这可能引入评测泄露。研究团队转而观察全局规则池中Top-K规则的稳定性:如果连续多轮演化后,排名靠前的规则大部分保持不变,说明系统已经学习到一组稳定且可复用的压缩规则。
具体而言,论文使用“保留率(Retention)”来衡量相邻两轮演化中Top-K规则的重合比例。保留率越高,说明有效规则的前沿越稳定。

图中上半部分显示,三个模型的Top-30规则保留率在多轮演化后逐渐超过90%;下半部分显示,当保留率稳定后,任务准确率的滚动标准差也明显下降。也就是说,规则池的稳定与性能的稳定是同步出现的。因此,规则保留率可以作为TACO一个实用的收敛信号:当高价值规则集合基本不再变化时,继续自进化带来的收益就会变小。
案例分析:TACO究竟删了什么,留了什么?
上述实验说明了TACO能提升准确率和Token效率。接下来更重要的问题是:TACO到底删掉了什么,又保留了什么?下面通过三个真实轨迹片段来观察它的压缩行为。
案例一:将万字符安装日志压缩至73字符。 在TerminalBench 2.0的“adaptive-rejection-sampler”任务中,智能体需要安装R运行时,于是执行了:`apt-get install -y r-base`。原始输出超过10,000字符,包含大量重复的“Unpacking”和“Setting up”行。对后续决策而言,智能体并不需要完整阅读所有安装过程。它真正需要知道的是:安装是否还在进行、有没有报错、最终是否成功。TACO在任务中演化出针对这类输出的规则,将10,071字符的输出压缩到仅73字符,只保留当前的安装状态摘要。

关键不在于压缩比例本身,而在于:TACO没有粗暴地截断输出,而是根据命令类型和任务状态,识别出了“进度噪声”与“状态信号”的区别。
案例二:保留维系任务连续性的关键线索。 另一个例子来自“sqlite-with-gcov”任务。在该任务中,智能体需要编译SQLite并启用gcov覆盖率。原始`make`输出中有大量文件复制列表和冗长的编译命令。TACO会删除冗长的复制列表,但保留`-fprofile-arcs`、`-ftest-coverage`等与覆盖率相关的关键编译参数。

这一点至关重要。因为对这个特定任务而言,这些编译标志是判断gcov是否被正确启用的重要证据。普通的截断策略很可能会将它们一并切掉,而TACO基于规则的过滤则可以精准地保留这些行动线索。
案例三:在二进制分析中保留控制流信息。 在二进制逆向任务“vulnerable-secret”中,TACO还演化出针对`objdump`输出的规则:过滤重复的十六进制转储行,同时保留`call`指令、符号标签和关键地址信息。这些信息正是智能体追踪二进制控制流所必需的。

这说明TACO并非简单地把输出变短,而是将终端输出变得更像“下一步决策所需的观察(observation)”。
总结
TACO提供了一种无需训练的自进化观测压缩方案,让智能体能够从真实交互轨迹中学习,明确区分哪些输出可以安全过滤、哪些行动线索必须保留。
让智能体学会丢弃无效的观察,它才能在长程任务中走得更稳、更远。
相关资源
arXiv论文:http://arxiv.org/abs/2604.19572
GitHub开源代码:https://github.com/multimodal-art-projection/TACO
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
KTV聚会狂欢指南 日常娱乐活动如何安排
想要用MidJourney生成氛围感十足的KTV聚会狂欢图片,却总是感觉画面不够生动?这通常是由于提示词组合不够精准或参数设置不当造成的。掌握一套高效的提示词策略,能够帮助你轻松捕捉KTV场景中独特的光影、动感与热闹氛围。 一、构建高饱和度与强节奏感的提示词组合 核心在于像导演一样,用语言精准“调度
Canva最新版如何将SVG矢量图转换为PNG格式
在Canva最新版本中,将SVG矢量图形转换为PNG位图格式,是许多设计师和内容创作者常遇到的需求。虽然操作路径可能因版本更新而略有不同,但只要掌握正确的导出设置与步骤,就能轻松实现高质量的无损转换。本文将为您详细解析在Canva中实现SVG转PNG的三种主流方法,涵盖从单张处理到批量转换,乃至技术
古代宫殿建筑复原视频制作教程与场景搭建技巧
想要通过MidJourney生成专业级、符合史实的古代宫殿复原图,却常常得到风格混杂、细节失真的结果?问题的核心往往在于提示词缺乏专业深度。AI模型对“中国古建筑”的认知是笼统的,它需要你像一位古建专家或考古学者一样,提供精准、结构化的指令。以下五种经过验证的优化策略,将帮助你系统性地提升AI生成图
Canva最新版LaTeX公式转换教程 学术格式编辑指南
在学术论文、技术报告或教学演示的设计过程中,经常需要将专业的LaTeX数学公式嵌入到Canva设计稿中。许多用户发现Canva编辑器并未内置直接的LaTeX代码输入功能,这通常是因为平台当前版本尚未集成原生的LaTeX渲染引擎。但无需担心,通过以下几种经过实践验证的高效转换方法,您可以轻松实现LaT
Claude技能深度测评百项精华全解析
先来看一个直观的对比。同样一个生成PPT的提示词,左侧是常规输出,右侧则是启用了遵循特定品牌指南的“技能”后的效果。色彩搭配、字体选择、版式布局,全部精准匹配品牌规范。 图片 这正是Claude“Skills”功能带来的变革。简而言之,它允许你创建一套可复用的预设指令集,让Claude严格遵循你设定
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

