多模态程序性知识库 MMSkills 赋能 LLM Agent 技能提升

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

多模态程序性知识库 MMSkills 赋能 LLM Agent 技能提升

热心网友时间：2026-05-18

转载

近日，上海交通大学与小红书联合研究团队发布了一项名为MMSkills的创新成果，旨在解决当前大模型智能体（Agent）研究中的一个关键挑战：如何让视觉Agent真正具备“看懂”并“记住”环境状态的能力。简而言之，MMSkills的核心突破在于将Agent的技能库从传统的“文本操作指南”升级为“多模态程序性知识库”。这意味着视觉Agent不仅能记住“下一步点击哪里”，更能理解“关键状态应该呈现何种视觉特征”，以及“识别到该状态后应如何做出决策”。

MMSkills 作者团队与项目资源

为何LLM Agent的技能不能仅依赖文本？

构建技能库本质上是将任务经验进行外部化存储的过程。由于大模型自身的参数难以可靠记忆所有交互经验，因此需要将成功或失败轨迹中的“程序性知识”提取并整理，供后续任务检索与复用。

然而，当前主流的基于文本的技能库存在一个隐含假设：关键状态能够被语言充分描述。这一假设在纯文本任务中或许成立，但在涉及视觉交互的领域——如桌面操作、游戏控制或开放世界环境——便成为显著瓶颈。在这些场景中，智能体的决策往往依赖于对视觉状态的即时感知与识别：例如，一个按钮是否处于高亮可点击状态？一个弹窗是否已加载完成？特定物品是否已被拾取？角色的跳跃时机是否已经出现？

这些信息本质上并非简单的“步骤说明”，而是“状态识别与决策条件”的结合。MMSkills正是精准捕捉到了这一核心需求，将视觉Agent的技能重新定义为一种融合了操作序列与对应视觉状态证据的多模态知识单元。

MMSkills的核心构成：流程、状态卡片与关键帧

那么，一个具体的MMSkill包含哪些部分？它由三个有机结合的模块组成：

首先是文本流程，这部分继承了传统技能中对操作步骤的文字描述。

其次是运行时状态卡片，这是MMSkills的创新精髓。它明确定义了诸如when_to_use（适用时机）、when_not_to_use（禁用时机）、visible_cues（可见线索）、verification_cue（验证线索）和available_views（可用视图）等条件。这相当于为每个技能配备了一份详细的“使用说明书”和“状态核查清单”。

最后是多视角关键帧。它为上述关键状态提供了直观的视觉证据，可能包含全屏截图、局部特写裁剪、操作前后对比图等多种视角的图像。

这种表示方法将抽象的“文字流程”与具体的“视觉条件”紧密绑定。对于大模型而言，技能不再只是一个冗长的提示词模板，而是一个包含了状态记忆与视觉参照的外部知识包。

MMSkills 示例：文本流程、状态卡片与多视角视觉证据共同组成一个可复用技能包

从交互轨迹生成技能：提炼状态知识，而非存储录像

生成文本技能或许可以通过总结成功经验来完成，但生成多模态技能则复杂得多。系统需要智能判断：哪些视觉状态具有可复用价值？哪一帧画面最能代表该状态？关键视觉区域在哪里？视觉证据又如何与抽象的决策条件相关联？

MMSkills设计了一个智能的“轨迹到技能生成器”。其工作流程颇具巧思：首先对大量公开的非测试交互轨迹进行嵌入表示与聚类分析；接着为每个任务簇规划技能结构；然后进行跨簇的合并、去重与泛化处理；生成流程和状态卡片的草案；最后，读取真实的关键帧画面，完成视觉信息的“落地”与最终审核。

这一过程的关键在于，它并非简单地将原始操作录像存入技能库，而是从海量交互数据中，提炼出那些可复用、可泛化的“状态化知识”。

分支加载：为多模态证据设计的智能上下文管理策略

对于LLM Agent而言，上下文并非越长越好。尤其是在多模态场景下，若将所有技能图片、状态描述和解释文字全部塞入主上下文，只会引入大量噪声，干扰核心推理过程。

MMSkills提出的“分支加载”机制，可被视为一种面向多模态证据的“渐进式披露”策略：

主Agent首先判断当前是否需要调用某个技能；随后，一个临时的技能分支被激活，它仅精选当前所需的状态卡片和关键帧视图；该分支会将精选的视觉证据与实时屏幕画面进行比对分析；最终，它向主Agent返回一份结构化的决策指导，包括技能是否适用、子目标、行动计划、禁忌动作以及验证方式等。

这相当于将耗时的“视觉证据检查”工作从主推理线程中剥离，形成一个独立的“顾问”模块。主Agent接收到的是一份经过压缩和结构化的结论，从而显著降低了上下文污染与视觉锚定效应带来的干扰。

MMSkills 框架：多模态技能包、技能生成流程和分支加载 Agent

实验结果：外部多模态知识有效补足模型先验不足

研究团队在四个主流的视觉Agent基准上进行了全面评估，覆盖了真实桌面环境（OSWorld, macOSWorld）、3D世界（VAB-Minecraft）和2D游戏（Super Mario Bros），并使用了包括Gemini、Qwen、GLM、Kimi在内的多个主流大模型。

结果令人印象深刻。在OSWorld基准上，MMSkills为所有评测的模型家族均带来了性能提升。对于参数规模较小的模型，提升尤为显著——例如，Qwen3-VL-8B模型的任务成功率从10.78%大幅提升至25.40%。这有力证明，外部多模态技能提供的并非模型已有的知识，而是在模型内部“程序性先验”不足时，提供了关键的补充与支撑。

OSWorld application-level success rates：MMSkills 在不同模型和应用域上均带来整体提升

更重要的是，这种性能收益具备良好的可迁移性。在macOS、Minecraft等视觉环境迥然不同的任务中，MMSkills同样带来了稳定的性能提升。

Auxiliary GUI and game-based visual-agent results：MMSkills 在跨系统 GUI 与游戏任务上同样有效

消融实验的启示：信息需要智能组织，而非简单堆砌

通过细致的消融实验，MMSkills揭示了两个关键结论：

首先，状态卡片与多视角关键帧各自具有独立价值。前者帮助模型进行高层的逻辑判断（例如，当前是否适用此技能？），后者则帮助模型完成低层的感知对齐（例如，当前画面匹配哪个视觉状态？）。

其次，也是更值得注意的一点：简单粗暴地将完整的多模态技能包全部加载到主上下文中，反而会损害模型性能。这对热衷于扩展上下文窗口的研究社区是一个重要提醒：在多模态场景下，并非信息越多越好，关键在于对证据的智能筛选、隔离推理以及结构化的信息回传。Branch Loading机制的有效性，正是对此观点的完美印证。

MMSkills 消融实验：技能内容与分支加载机制均影响最终性能

行为模式的转变：从盲目点击到状态感知决策

除了成功率的提升，论文还深入分析了Agent底层行为模式的变化。引入MMSkills后，Agent的行为展现出更高的“智能感”：动作总数和重复性行为显著下降，对于任务是否完成的判断也变得更加稳定可靠。

以Qwen3-VL-235B模型为例，其点击动作的比例从75.8%下降至63.7%，而完全重复的动作序列则从21.8%骤降至6.2%。这表明，MMSkills不仅仅是在提升任务成功率，更是在从根本上优化Agent的执行策略——使其从一种依赖大量试错、反应式的“盲目点击”模式，转向一种基于状态识别、更有规划性的“感知-决策”模式。

MMSkills 对 Agent 行为模式的影响：动作负载、重复行为和完成意识均发生变化

对LLM Agent未来研究的启发

MMSkills这项工作的意义，远不止于构建一个性能更高的视觉Agent系统。它为更广泛的LLM Agent研究提供了几个清晰的启示：

第一，经验的外部化必须超越文本层面。 对于依赖感知的任务而言，“视觉状态”本身就是知识不可或缺的一部分。将视觉证据与操作流程深度融合，是构建真正通用、鲁棒技能库的必经之路。

第二，多模态上下文需要运行时的动态过滤与管理。 无差别地注入所有视觉信息会导致严重的上下文污染。未来的智能体架构需要更精细的“注意力”或“门控”机制，能够动态筛选和加载相关的多模态证据。

第三，技能调用本身可以成为一个独立的推理问题。 Branch Loading机制展示了一种优雅的解决方案：将耗时的、细节性的证据检查工作委托给一个专门的“技能分支”Agent，让主Agent专注于高层规划与决策，仅接收结构化、摘要化的指导。这种“解耦”的设计思想，对于构建复杂、高效的智能体系统具有重要的参考价值。

总结

总而言之，MMSkills通过将技能定义为“多模态程序性知识”，为视觉Agent赋予了真正的“状态记忆”与“情境感知”能力。它不仅仅是一个性能优化工具，更代表了一种研究思路的转变：让智能体不仅知道“如何操作”，更能理解“为何在此刻操作”以及“操作的目标状态是什么”。这或许是迈向更可靠、更类人智能体的关键一步。

来源:https://www.51cto.com/article/843475.html

上一篇： AI基础设施能效优化成为行业发展新焦点

下一篇：浙大与微软联手推出3000条文本数据集，解决AI视频生成3D穿帮难题