上交大与小红书联合开源MMSkills视觉智能体多模态技能框架
一、MMSkills视觉智能体多模态技能框架详解 首先要明确一个核心观点:在视觉智能体领域,单纯依赖文字指令已经难以突破性能瓶颈。MMSkills框架的诞生,正是为了解决一个具体且顽固的行业难题——AI在操作软件或游戏界面时,虽然能“看到”屏幕画面,却像盲人一样频繁点错位置、迷失操作路径,甚至无法判
一、MMSkills视觉智能体多模态技能框架详解
首先要明确一个核心观点:在视觉智能体领域,单纯依赖文字指令已经难以突破性能瓶颈。MMSkills框架的诞生,正是为了解决一个具体且顽固的行业难题——AI在操作软件或游戏界面时,虽然能“看到”屏幕画面,却像盲人一样频繁点错位置、迷失操作路径,甚至无法判断任务是否完成。
这套技术框架由上海交通大学、小红书以及东南大学的联合研究团队共同推出,已于2026年正式开源,相关的学术论文也发布在arXiv平台(编号:arXiv:2605.13527)。MMSkills的全称虽然较长,但其核心思想非常明确:让视觉AI真正“理解”界面运行状态,而不是机械地记忆操作步骤。过去,传统方案仅向AI提供一段文字描述,例如“先点击右上角的‘文件’菜单,再选择‘保存’选项”,但由于AI并不了解当前界面的实际布局,极易操作失误。MMSkills的独特优势在于,它将智能体的交互轨迹整理为标准化的多模态技能包——其中不仅包含文字操作流程,还附带了运行状态卡片以及多视角的关键帧截图。在推理阶段,这一框架采用了更为智能的分支加载隔离机制:智能体会在独立的临时分支上拉取视觉素材,与实时截图进行比对分析,最终输出包含状态感知能力的结构化操作指令。这种方式既显著提升了任务执行的成功率,又严格控制了上下文Token的消耗量,避免对主对话造成额外负担。
该项目的配套资源也相当完善:包含515个跨领域的标准化技能库、兼容四大主流评测基准、提供多款AI代码助手的通用适配器,以及完整的实验日志输出工具。此外,项目还开放了社区技能共建功能,开发者能够自主扩展全新场景下的技能库,诚意十足。
四、MMSkills典型应用场景
桌面GUI自动化智能体研发
支持Ubuntu和macOS双桌面系统,可应用于表格制作、VS Code插件安装、GIMP图像编辑、浏览器书签管理、邮件处理以及多媒体软件操作等日常办公自动化任务。在这些场景中,AI将不再容易“迷失路径”,显著提升操作准确率。游戏视觉智能体标准化评测
兼容VAB-Minecraft和超级马里奥等热门游戏环境,为游戏AI提供了标准化的操作技能库。评测流程的统一,使得不同模型在游戏操控能力上的横向对比更加便捷可靠。AI代码助手能力增强
Codex、Claude Code、OpenClaw等主流代码助手,在集成MMSkills后,能够直接操控桌面软件以完成配套的开发流程,相当于赋予代码智能体一双“灵活的手”,从而扩展其应用范围。学术视觉Agent消融实验
基于OSWorld、macOSWorld等权威评测基准,研究人员可以开展多方案的性能对比以及模块消融实验。MMSkills输出的标准化、可复现的量化指标,非常有利于计算机视觉与大模型Agent方向的科研工作。垂直领域智能体拓展开发
开发者能够利用这套框架,向移动端自动化、网页交互、工业机器人、自动驾驶仿真以及科研软件等方向进行扩展。通过自主构建技能包,并借助社区投稿渠道扩充官方公共库,大大降低了垂直领域智能体的开发门槛。企业数字员工落地应用
将企业内部的标准化桌面办公流程沉淀为可视化技能包后,AI数字员工的训练成本将显著下降,标准流程可自动高效执行,助力企业实现流程自动化。
五、MMSkills完整使用教程
不用担心,上手过程并不复杂。只需按照以下步骤操作,即可快速运行起来。
步骤1:克隆开源项目仓库
git clone https://github.com/zkangning/MMSkills_for_Visual_Agents.git cd MMSkills_for_Visual_Agents
步骤2:配置Python虚拟环境并安装依赖项
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt
步骤3:一键集成至OSWorld评测环境
提前下载OSWorld源码,然后执行以下脚本,系统将自动复制Agent、技能以及映射文件:
python3 scripts/install_into_osworld.py /path/to/OSWorld --with-runner --with-skills
步骤4:配置大模型API接口
若使用OpenAI兼容接口,请按如下方式配置:
export OPENAI_BASE_URL="你的模型接口地址/v1" export OPENAI_API_KEY="你的密钥"
若使用Gemini兼容接口,请按如下方式配置:
export GEMINI_BASE_URL="Gemini接口地址/v1" export GEMINI_API_KEY="你的密钥"
步骤5:选择三种模式启动运行
基线无技能对照模式
python run.py --agent_type general --model gpt-4o --domain chrome --max_steps 20
纯文本技能消融实验模式
python run.py --agent_type general_text_skill --skill_mode text_only --domain chrome
完整多模态MMSkills推荐模式
python run.py --agent_type mm_skill --skill_mode multimodal --task_skill_top_k 6 --sa ve_conversation_json
步骤6:为Codex代码助手一键安装适配器
只需一行脚本,部署流程极其简便:
curl -fsSL https://raw.githubusercontent.com/zkangning/MMSkills_for_Visual_Agents/main/scripts/install_codex_mmskills.sh | bash
重启Codex后,输入$mmskills命令,即可调用技能检索与加载的全部功能。
步骤7:技能管理常用工具命令
# 检索指定领域的可用技能 python scripts/search_skills.py "chrome bookmark" --package ubuntu # 下载目标技能包文件 python scripts/download_skill.py ubuntu/chrome/CHROME_Manage_Bookmarks_Reading_List_And_Shortcuts # 查看技能的完整元数据与视觉素材 python scripts/inspect_skill.py ~/.cache/mmskills/skills/ubuntu/chrome/xxx
六、MMSkills竞品对比分析
下面,我们将几个主流的视觉Agent技能方案进行横向对比,差异一目了然:
| 对比维度 | MMSkills | OpenClaw Skills | Claude Code Skill | OSWorld原生文本技能 |
|---|---|---|---|---|
| 技能模态 | 多模态(文本+视觉截图+状态标注) | 纯文本操作手册,缺乏视觉辅助素材 | 纯文本工具调用流程,无图像校验功能 | 仅提供极简的纯文本操作描述 |
| 推理架构 | 采用独立分支隔离加载机制,不占用主上下文Token | 全量技能注入主Prompt,Token消耗较高 | 使用工具式子程序调用,缺乏视觉对齐逻辑 | 全部文本放入主对话,上下文容易膨胀 |
| 视觉校验能力 | 原生支持截图比对与界面元素状态识别 | 无视觉参考,仅依据文字描述进行判断 | 不具备图像匹配与界面校验逻辑 | 完全不支持视觉状态判断 |
| 跨Agent兼容性 | 统一适配器,兼容Codex、OpenClaw、Claude Code | 仅适配OpenClaw自身 | 仅Claude Code专属,无法通用 | 仅OSWorld内置Agent可用 |
| 技能存储方式 | Hugging Face云端按需下载,本地轻量化缓存 | 本地全量存储,占用大量磁盘空间 | 内置少量固定工具,无法扩展外部技能库 | 本地固定精简子集,无远程扩充能力 |
| 覆盖场景 | Ubuntu、macOS桌面、Minecraft、马里奥,并可拓展至机器人、自动驾驶 | 仅覆盖桌面代码与终端命令行任务 | 仅支持代码开发与终端操作场景 | 仅适用于Ubuntu桌面OSWorld基准环境 |
| 专项评测日志 | 自动生成技能调用次数、执行成功率及对话完整统计文件 | 仅提供基础执行记录,缺乏技能专项指标 | 仅记录代码执行日志,无GUI操作统计 | 仅提供基础任务结果,无技能使用明细 |
七、常见问题解答
Q:使用MMSkills是否必须依赖OSWorld环境?
A:并非如此。OSWorld只是官方提供的参考基准环境之一。该框架原生支持macOSWorld、VAB-Minecraft以及GamingAgent三大评测框架;此外,通过mmskills-agent-adapter适配器,可以直接对接Codex、OpenClaw、Claude Code等独立的AI代码助手,完全不需要依赖OSWorld源码。
Q:本地硬盘空间有限,是否需要下载全部的515个技能?
A:不需要。全部515个技能都托管在Hugging Face数据集上,框架会根据实际任务按需下载,智能体只会拉取与当前任务相匹配的技能包。此外,仓库内置了一个精简的本地技能子集,即使在断网状态下,也能完成基础功能测试,不会一次性占用大量磁盘空间。
Q:MMSkills能否接入本地部署的开源多模态大模型?
A:完全可以。该框架在设计上是模型无关的,只要模型提供OpenAI或Gemini兼容的对话API接口,并且支持图片输入——无论是GPT-4o、Gemini这类商用模型,还是Qwen-VL、LLaVA等本地开源视觉大模型,都可以无缝集成。
Q:如何将自己开发的新领域技能提交到官方公共技能库?
A:有两种标准化的提交流程。第一种是访问项目官网的投稿页面,填写表单并上传符合规范的技能压缩包。第二种是在GitHub仓库中新建Issue,附上遵循docs/submit_mmskills.md规范的技能文件夹。维护人员在收到通知后会进行审核,通过审核的技能将同步到Hugging Face数据集以及官网检索库中。
Q:使用mm_skill模式加载大量截图,是否会大幅消耗模型Token?
A:不会,这正是分支加载机制的核心价值所在。所有视觉素材仅在独立的临时分支上加载,主Agent的上下文中只保留一个简短的技能名称。临时分支完成推理后,图像数据会被立即销毁,不会持续占用主对话的Token资源。
Q:MMSkills目前是否支持Windows系统桌面智能体?
A:官方内置的技能库目前主要覆盖Ubuntu、macOS、Minecraft以及马里奥四大场景,暂无原生Windows适配。不过,该框架的扩展性很强,开发者可以自行编写Windows领域的技能包,通过社区投稿方式将其扩充到官方公共库中。
Q:项目采用Apache 2.0协议,企业是否可以进行商业二次开发?
A:当然可以。Apache 2.0协议明确允许商用途、二次修改及分发衍生产品,唯一的要求是保留原始版权声明。衍生产品无需强制开源,企业可以无限制地将其用于内部自动化流程或商业AI产品的开发。
Q:MMSkills的轨迹转技能生成器应该如何操作?
A:轨迹生成模块内置于项目的scripts脚本目录中。通过导入智能体的历史交互轨迹文件,该工具会自动完成聚类分析、流程提炼以及视觉标注,最终输出标准化的MMSkill技能包。整个过程无需手动编写完整的SKILL.md文件或状态卡片,极大提升了工作效率。
八、MMSkills官方资源链接
GitHub开源代码仓库:https://github.com/zkangning/MMSkills_for_Visual_Agents
arXiv学术论文原文:https://arxiv.org/abs/2605.13527
项目官方演示主站:https://zkangning.github.io/MMSkills_for_Visual_Agents/
Hugging Face数据集:https://huggingface.co/datasets/zhangkangning/mmskills
九、总结与展望
综合来看,MMSkills是当前视觉智能体领域一套相当完整且具备强落地能力的技能解决方案。它成功突破了传统纯文本技能缺乏视觉界面校验的瓶颈,通过分支隔离加载、云端按需拉取以及标准化技能包这三大核心设计,在桌面与游戏AI的任务执行精度与推理Token成本之间找到了理想的平衡点。该框架原生兼容主流多模态大模型和商用AI代码助手,配套了四大权威视觉评测基准、完整的适配工具链、标准化的量化评测日志,以及开放的社区技能共建体系。无论是科研人员用于消融实验与多方案性能对比,还是企业开发者用于搭建桌面自动化数字员工、拓展机器人或移动端场景,都能从中找到合适的切入点。一句话总结:MMSkills让视觉智能体摆脱了“盲目操作”的困境,真正迈出了关键性的一步。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:上交大与小红书联合开源MMSkills视觉智能体多模态技能框架要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
