清华阿里通义智能体新方案实现长程任务成本降低70%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

清华阿里通义智能体新方案实现长程任务成本降低70%

热心网友时间：2026-05-19

转载

当AI智能体执行需要多轮搜索与深度推理的复杂任务时，一个普遍存在的挑战日益凸显：上下文信息过载。模型往往会出现关键信息遗忘或推理链条断裂的问题。这不仅是技术上的瓶颈，更是阻碍AI向更高阶应用发展的现实壁垒。因此，如何为智能体构建稳定可靠的“长程记忆”能力，已成为全球人工智能研究的前沿焦点。

近期，清华大学与阿里巴巴通义实验室的联合研究团队提出了一项创新解决方案。他们研发的自我记忆策略优化算法（MemPO），成功使大语言模型具备了主动管理记忆的能力。实验成果显著：在处理多目标复杂任务时，智能体的任务准确率实现了大幅跃升，同时计算资源消耗降低了近70%。这堪称一次在效能与成本控制上的双重突破。

智能体的长程记忆困境

如今，我们对AI智能体的能力期待已远不止于简单对话。深度市场调研、复杂数据分析和大型代码编写等长程决策任务，要求智能体必须像人类一样，在持续的“思考-行动”循环中保持逻辑的连贯性与一致性。

当前的主流实现方式是，智能体观察环境、进行思考、执行行动，并将环境反馈附加到历史对话记录中，作为下一轮决策的提示。然而，随着交互轮次增加，上下文长度呈线性甚至指数级增长。这不仅会迅速触及模型有限的上下文窗口上限，还会带来极其高昂的Token计算成本。成本问题，正是制约智能体系统进行大规模商业部署的核心障碍之一。

更为微妙的是，过长的上下文会引发“中间信息迷失”现象——模型在处理超长文本时，容易忽略掉位于中间段落的关键信息，从而导致整体任务性能急剧下降。

为此，研究者们尝试引入外部记忆模块，主流方案是构建向量知识库，并利用检索增强生成（RAG）技术，在需要时检索相关的历史片段。但这本质上是一种离线压缩方法，缺乏与核心任务目标的动态协同优化。基于文本相似度的检索结果，未必是对解决当前问题最有价值的信息。智能体在此模式下依然处于被动地位，无法主动筛选和组织关键线索。

为了突破这一被动局面，研究团队重新设计了交互范式。智能体不再被动接收全部历史，而是能够使用特定的记忆标签，自主地对历史信息进行提炼和重组。

在新的MemPO框架下，智能体在每轮交互中可输出三种动作类型：记忆、思考、工具调用。其核心创新在于，当模型推导下一步操作时，它会彻底丢弃早期冗长的原始上下文，仅使用上一轮浓缩生成的“记忆块”作为输入。这种将记忆管理内化为智能体核心能力的设计，为攻克长程复杂任务奠定了全新的技术基础。

训练模型自主撰写关键备忘录

构想虽好，但如何让智能体真正学会提炼高质量的记忆内容？研究团队将解决方案指向了强化学习（RL）。然而，直接应用常规算法会面临奖励信号分配的难题。

以组相对策略优化（GRPO）为例，该方法通过对比一批候选行动轨迹的最终结果来调整策略。只要最终答案正确且格式符合要求，整条轨迹上的所有步骤都会获得相同的奖励。这种“轨迹级”的全局奖励机制过于粗糙。在一个长达十几轮的交互任务中，即便最终答对，模型也无法辨识究竟是哪一轮生成的记忆起到了决定性作用。针对记忆生成动作的反馈信号极度稀疏，模型难以学会保留最相关的解题线索。

针对这一核心痛点，自我记忆策略优化算法（MemPO）应运而生。它打破了“奖励均摊”的机制，专门为记忆内容的生成设计了一套细粒度的评估标准。

从算法框架图可以看出，在任意轨迹的特定步骤中，上下文被精简为四个部分：记忆、思考、工具调用和工具响应。算法在评估表现时，不仅保留传统的轨迹级全局奖励，还会专门为“记忆”部分计算一个独立的“记忆奖励”。

最终，在更新模型策略时，属于“记忆”标签内的Token将同时接收到轨迹级奖励和记忆级奖励的双重强化；而普通的推理和工具调用Token，则仅依靠轨迹级奖励进行优化。这种差异化的信用分配机制，有效地引导智能体将最核心、最有效的信息沉淀到记忆模块之中。

以概率量化记忆的信息价值

设计独立的记忆奖励合乎逻辑，但随之而来的问题是：如何用客观的数学指标来量化一段记忆摘要的质量？

研究人员回归到语言模型的基础原理中寻找答案。大模型输出任何内容，其底层逻辑都是基于前置上下文计算下一个Token的条件概率。逆向思考：如果一段记忆能显著提升模型生成最终正确答案的条件概率，那就证明这段记忆保留了高度有效的信息，对解决问题至关重要。

MemPO算法正是将这种条件概率的提升幅度，作为衡量记忆信息含量的核心定量指标。每一轮交互产生的记忆都会被测试，评估其能在多大程度上提升最终正确答案的出现概率。为了消除不同任务本身难度差异带来的偏差，算法还引入了基线偏置项进行校准，确保奖励信号真实、准确地反映了记忆浓缩信息的水平。

上方的对比图清晰地展示了差异。采用MemPO算法的模型（蓝色），其生成的记忆样本更多地分布在更高的条件概率区间（横轴右侧）。折线图的走势进一步印证了设计思路：在条件概率更高的分组中，对应的平均任务准确率也确实更高。这证明，通过概率提升来打分，确实能有效驱动模型生成有助于解题的高质量记忆。

从随交互步骤变化的概率分析图来看，在处理包含10个检索目标的复杂任务时，在前10步中，新算法对应的平均条件概率稳步上升。这表明智能体正在有效地积累和组织有价值的线索。而在10步之后概率开始回落，这也符合实际任务逻辑：常规信息检索大约在10步内即可完成，后续步骤往往意味着关键信息极难获取。这种精准的趋势变化，真实反映了模型记忆组织能力的动态演进。

高效能低消耗的长程任务实测

理论需要实践检验。研究团队构建了一个多目标任务测试集，要求智能体在问题中逐步挖掘线索，任务难度随着所需查找的目标数量递增而倍增。所有对比方法均统一采用Qwen2.5系列的70亿参数模型。

实验结果具有充分的说服力。在精确度（F1分数）指标上，MemPO算法相较于基础模型取得了25.98分的绝对提升，比之前最先进的同类基线方案高出7.1分。即便面对包含10个目标的极限难度测试（远超模型训练所见难度），智能体的表现依然保持稳健。

更亮眼的是其效率提升。智能体解决单个问题所消耗的总Token数，以及单步最高消耗Token数，分别显著降低了67.58%和73.12%。具体到10目标任务，传统基线方法消耗的Token总量约为MemPO的3倍，单步资源峰值更是高达5倍。这意味着巨大的运营成本节约。

为了厘清算法中各个组件的贡献，研究人员进行了系统的消融实验。

左侧图表显示，引入独立的记忆奖励信号，使模型性能实现了肉眼可见的持续爬升。右侧图表则揭示了一个反直觉的现象：为智能体提供完整的历史上下文，在处理短期任务时或许略有助益；然而，一旦任务周期拉长，保留的交互步骤越多，智能体的性能衰减得越快。海量的冗余信息不仅无法提供助力，反而会稀释模型的注意力，拖累其推理能力。这从侧面强有力地证明了，让智能体自主浓缩单步记忆的极简策略，具有显著的前瞻性和必要性。

当然，当前研究也存在一定的局限性。其评价机制受到工具调用所返回信息量波动的影响，在计算同一组内不同轨迹的相对分数时会产生微小偏差，尽管公式中引入的偏置项能起到一定的缓冲作用。若要让这项技术在真实的业务流中落地生根，还需要在更复杂、开放的场景中进行进一步的打磨与验证。

总而言之，在算力成本日益成为大模型普惠化阻力的当下，这种“以更低成本实现更优性能”的算法突破，其价值不言而喻。智能体与物理世界或网络环境的交互，是一场充满噪声与不确定性的“长跑”。将记忆生成、逻辑推理和工具调用能力深度耦合，并依托严密的数学概率作为反馈尺度，智能体正逐步掌握像人类一样“抓住重点、铭记关键”的核心能力。这或许，正是构建下一代高级AI智能体架构的标配方向。

来源:https://www.51cto.com/article/840636.html

上一篇：高并发RAG系统延迟优化：召回与生成阶段性能提升策略

下一篇：研究警示：五大AI平台半数医学建议存疑，使用需谨慎