多模态程序性知识库 MMSkills 赋能 LLM Agent 技能提升
近日,上海交通大学与小红书联合研究团队发布了一项名为MMSkills的创新成果,旨在解决当前大模型智能体(Agent)研究中的一个关键挑战:如何让视觉Agent真正具备“看懂”并“记住”环境状态的能力。简而言之,MMSkills的核心突破在于将Agent的技能库从传统的“文本操作指南”升级为“多模态程序性知识库”。这意味着视觉Agent不仅能记住“下一步点击哪里”,更能理解“关键状态应该呈现何种视觉特征”,以及“识别到该状态后应如何做出决策”。

为何LLM Agent的技能不能仅依赖文本?
构建技能库本质上是将任务经验进行外部化存储的过程。由于大模型自身的参数难以可靠记忆所有交互经验,因此需要将成功或失败轨迹中的“程序性知识”提取并整理,供后续任务检索与复用。
然而,当前主流的基于文本的技能库存在一个隐含假设:关键状态能够被语言充分描述。这一假设在纯文本任务中或许成立,但在涉及视觉交互的领域——如桌面操作、游戏控制或开放世界环境——便成为显著瓶颈。在这些场景中,智能体的决策往往依赖于对视觉状态的即时感知与识别:例如,一个按钮是否处于高亮可点击状态?一个弹窗是否已加载完成?特定物品是否已被拾取?角色的跳跃时机是否已经出现?
这些信息本质上并非简单的“步骤说明”,而是“状态识别与决策条件”的结合。MMSkills正是精准捕捉到了这一核心需求,将视觉Agent的技能重新定义为一种融合了操作序列与对应视觉状态证据的多模态知识单元。
MMSkills的核心构成:流程、状态卡片与关键帧
那么,一个具体的MMSkill包含哪些部分?它由三个有机结合的模块组成:
首先是文本流程,这部分继承了传统技能中对操作步骤的文字描述。
其次是运行时状态卡片,这是MMSkills的创新精髓。它明确定义了诸如when_to_use(适用时机)、when_not_to_use(禁用时机)、visible_cues(可见线索)、verification_cue(验证线索)和available_views(可用视图)等条件。这相当于为每个技能配备了一份详细的“使用说明书”和“状态核查清单”。
最后是多视角关键帧。它为上述关键状态提供了直观的视觉证据,可能包含全屏截图、局部特写裁剪、操作前后对比图等多种视角的图像。
这种表示方法将抽象的“文字流程”与具体的“视觉条件”紧密绑定。对于大模型而言,技能不再只是一个冗长的提示词模板,而是一个包含了状态记忆与视觉参照的外部知识包。

从交互轨迹生成技能:提炼状态知识,而非存储录像
生成文本技能或许可以通过总结成功经验来完成,但生成多模态技能则复杂得多。系统需要智能判断:哪些视觉状态具有可复用价值?哪一帧画面最能代表该状态?关键视觉区域在哪里?视觉证据又如何与抽象的决策条件相关联?
MMSkills设计了一个智能的“轨迹到技能生成器”。其工作流程颇具巧思:首先对大量公开的非测试交互轨迹进行嵌入表示与聚类分析;接着为每个任务簇规划技能结构;然后进行跨簇的合并、去重与泛化处理;生成流程和状态卡片的草案;最后,读取真实的关键帧画面,完成视觉信息的“落地”与最终审核。
这一过程的关键在于,它并非简单地将原始操作录像存入技能库,而是从海量交互数据中,提炼出那些可复用、可泛化的“状态化知识”。
分支加载:为多模态证据设计的智能上下文管理策略
对于LLM Agent而言,上下文并非越长越好。尤其是在多模态场景下,若将所有技能图片、状态描述和解释文字全部塞入主上下文,只会引入大量噪声,干扰核心推理过程。
MMSkills提出的“分支加载”机制,可被视为一种面向多模态证据的“渐进式披露”策略:
主Agent首先判断当前是否需要调用某个技能;随后,一个临时的技能分支被激活,它仅精选当前所需的状态卡片和关键帧视图;该分支会将精选的视觉证据与实时屏幕画面进行比对分析;最终,它向主Agent返回一份结构化的决策指导,包括技能是否适用、子目标、行动计划、禁忌动作以及验证方式等。
这相当于将耗时的“视觉证据检查”工作从主推理线程中剥离,形成一个独立的“顾问”模块。主Agent接收到的是一份经过压缩和结构化的结论,从而显著降低了上下文污染与视觉锚定效应带来的干扰。

实验结果:外部多模态知识有效补足模型先验不足
研究团队在四个主流的视觉Agent基准上进行了全面评估,覆盖了真实桌面环境(OSWorld, macOSWorld)、3D世界(VAB-Minecraft)和2D游戏(Super Mario Bros),并使用了包括Gemini、Qwen、GLM、Kimi在内的多个主流大模型。
结果令人印象深刻。在OSWorld基准上,MMSkills为所有评测的模型家族均带来了性能提升。对于参数规模较小的模型,提升尤为显著——例如,Qwen3-VL-8B模型的任务成功率从10.78%大幅提升至25.40%。这有力证明,外部多模态技能提供的并非模型已有的知识,而是在模型内部“程序性先验”不足时,提供了关键的补充与支撑。

更重要的是,这种性能收益具备良好的可迁移性。在macOS、Minecraft等视觉环境迥然不同的任务中,MMSkills同样带来了稳定的性能提升。

消融实验的启示:信息需要智能组织,而非简单堆砌
通过细致的消融实验,MMSkills揭示了两个关键结论:
首先,状态卡片与多视角关键帧各自具有独立价值。前者帮助模型进行高层的逻辑判断(例如,当前是否适用此技能?),后者则帮助模型完成低层的感知对齐(例如,当前画面匹配哪个视觉状态?)。
其次,也是更值得注意的一点:简单粗暴地将完整的多模态技能包全部加载到主上下文中,反而会损害模型性能。这对热衷于扩展上下文窗口的研究社区是一个重要提醒:在多模态场景下,并非信息越多越好,关键在于对证据的智能筛选、隔离推理以及结构化的信息回传。Branch Loading机制的有效性,正是对此观点的完美印证。

行为模式的转变:从盲目点击到状态感知决策
除了成功率的提升,论文还深入分析了Agent底层行为模式的变化。引入MMSkills后,Agent的行为展现出更高的“智能感”:动作总数和重复性行为显著下降,对于任务是否完成的判断也变得更加稳定可靠。
以Qwen3-VL-235B模型为例,其点击动作的比例从75.8%下降至63.7%,而完全重复的动作序列则从21.8%骤降至6.2%。这表明,MMSkills不仅仅是在提升任务成功率,更是在从根本上优化Agent的执行策略——使其从一种依赖大量试错、反应式的“盲目点击”模式,转向一种基于状态识别、更有规划性的“感知-决策”模式。

对LLM Agent未来研究的启发
MMSkills这项工作的意义,远不止于构建一个性能更高的视觉Agent系统。它为更广泛的LLM Agent研究提供了几个清晰的启示:
第一,经验的外部化必须超越文本层面。 对于依赖感知的任务而言,“视觉状态”本身就是知识不可或缺的一部分。将视觉证据与操作流程深度融合,是构建真正通用、鲁棒技能库的必经之路。
第二,多模态上下文需要运行时的动态过滤与管理。 无差别地注入所有视觉信息会导致严重的上下文污染。未来的智能体架构需要更精细的“注意力”或“门控”机制,能够动态筛选和加载相关的多模态证据。
第三,技能调用本身可以成为一个独立的推理问题。 Branch Loading机制展示了一种优雅的解决方案:将耗时的、细节性的证据检查工作委托给一个专门的“技能分支”Agent,让主Agent专注于高层规划与决策,仅接收结构化、摘要化的指导。这种“解耦”的设计思想,对于构建复杂、高效的智能体系统具有重要的参考价值。
总结
总而言之,MMSkills通过将技能定义为“多模态程序性知识”,为视觉Agent赋予了真正的“状态记忆”与“情境感知”能力。它不仅仅是一个性能优化工具,更代表了一种研究思路的转变:让智能体不仅知道“如何操作”,更能理解“为何在此刻操作”以及“操作的目标状态是什么”。这或许是迈向更可靠、更类人智能体的关键一步。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
即梦AI服务器稳定性如何是否经常出现崩溃问题
即梦AI服务异常未必是服务器崩溃,常与网络、账户配额或模型通道有关。建议先检查官方状态页与本地网络,确认账户资源充足。可尝试切换模型版本或服务节点,避免功能互斥与资源消耗过大的操作组合。如问题持续,启用客户端日志捕获并提交分析。
腾讯元宝与豆包AI大模型实测对比五大维度深度解析
实测从五个维度对比了腾讯元宝与豆包。豆包在日常交互、内容创作、办公文档和多模态方面表现领先,尤其在非标准口语理解、平台化内容生成及多格式文档解析上优势明显。元宝响应速度快,侧重微信轻办公场景,在逻辑推理的特定模式下能力突出,但综合能力与场景适配性相对有限。
千问AI上下文对话能力深度测评与多轮交互解析
通义千问模型在多轮对话中展现出扎实的上下文管理能力。测试表明,它能有效处理长文档信息回溯、维持话题链、稳定记忆角色与格式要求,并在密集指代中保持精确绑定,为复杂连续交互提供了可靠支持。
豆包大模型在教育领域的十大应用场景解析
豆包大模型深度融入教学,能动态生成教案、设计课堂活动并关联课标。它可精准归因错题,推送针对性练习,还支持跨学科创作交互式资源,适配各类教学硬件,提升备课、辅导与课堂效率。
DAG革新时间序列预测:开源代码、数据与排行榜
华东师范大学团队提出DAG框架,通过构建时间与通道双维度相关网络,系统挖掘历史与未来、内生与外生变量间的深层关联,并将学习到的时间因果与变量相关模式迁移至预测过程,显著提升了预测精度。实验显示,该方法在多个数据集上优于主流基线。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

