上海交大突破AI视觉技术让智能助手实现看图办事

我们每天使用电脑时,一项看似简单的能力至关重要:扫一眼屏幕,就能立刻明白该点击哪里、下一步做什么、以及操作是否成功。这种“所见即所得”的视觉理解能力,对人类而言轻而易举,但对于旨在模仿人类行为的AI助手来说,却是一道难以逾越的鸿沟。
近期,一项由上海交通大学、小红书与东南大学联合开展的研究,为弥合这一差距提供了创新方案。研究团队提出了名为“MMSkills”的全新框架,旨在教会AI如何像人类一样,结合视觉信息来理解和执行复杂任务。这项研究成果已发表在arXiv预印本平台(论文编号:arXiv:2605.13527v2)。
要理解这项研究的价值,需从一个普遍痛点入手。当前,许多AI助手已具备预设的“技能”,可以将其想象为贴在墙上的纯文字菜谱。对于“煮泡面”这类步骤固定的任务,文字菜谱足够。但面对“判断牛排熟度”这种需要观察色泽、油花等视觉线索的复杂任务,仅靠文字描述就力不从心了。AI在操作图形用户界面(GUI)时,正面临后一种困境——它可能“知道”要点击保存,却“认不出”屏幕上哪个是保存按钮,或无法判断弹窗是否加载完毕。
研究团队深刻认识到,对于需要在视觉环境中“看图操作”的AI,一份纯文字说明书是远远不够的。必须为它打造一份“图文并茂的智能操作指南”,不仅要阐明动作步骤,更要明确指出需要关注哪些视觉特征、如何评估任务进度、以及怎样确认操作成功。
一、纯文字指令在视觉任务中的局限
设想一个常见场景:你指示AI在电子表格软件中创建一个图表,要求放置在第二个工作表,并将标题命名为“销售与成本分析”。听起来简单,但传统的AI助手极易在此出错。
如果完全不给指导,AI可能直接在当前打开的第一个工作表上绘制图表——位置完全错误。如果提供一份纯文字步骤说明,如“打开图表向导,选择柱状图……”,AI会机械执行,但仍不清楚自己在哪个工作表操作,结果依然错误。
然而,如果提供的是一份附带截图的操作指南,情况将截然不同。指南中除了步骤,还包含关键节点的屏幕截图,提示AI“看到这个界面时执行此操作”、“操作完成后屏幕应呈现此状态”。AI手持这份指南,对照实时屏幕,就能理解:需要先将图表剪切,切换到第二个工作表粘贴,最后还需检查标题是否正确。任务因此得以顺利完成。
这个例子揭示的核心问题是:如何将这种依赖视觉判断的“隐性经验”,封装成可重复使用、可迁移的“标准化知识包”?
二、多模态技能包的核心构成
研究团队设计的MMSkills多模态技能包,类似于一份精心编排的智能旅行攻略,由几个有机融合的部分构成。
最基础的部分是一段文字描述的操作流程,相当于攻略中的路线说明。它勾勒出技能的骨架,告知AI每个步骤应执行什么操作。
但仅有路线不够,攻略中还需有明确的“路标”。这就是该研究的关键创新之一——“状态卡片”。每张卡片记录了多项关键信息:该技能适用的前提条件、不适用的场景、当前应关注屏幕的哪些视觉特征、如何验证操作已达正确状态,以及可选的参考画面。简言之,状态卡片如同在告诉游客:“当你看到左前方那家悬挂红灯笼的餐馆,说明已抵达老城区入口,此时应右转;但如果看到的是连锁咖啡店,则说明方向有误。”
再往上一层,是关键画面的图像集合。每个重要状态都配有多张不同视角的参考图:全屏画面展示整体环境,局部特写聚焦关键控件,“操作前”与“操作后”的对比图则清晰呈现了变化过程。这好比攻略上不仅有地标全景照,还有细节特写,甚至包含了昼夜景观的对比。
需要强调的是,这些参考图并非让AI照搬坐标点击的模板,而是帮助其识别和定位的视觉线索。AI最终的每一个具体操作决策,仍需基于对真实屏幕的实时分析。
三、从公开操作录像中自动化提炼技能
那么,这些精美的“图文攻略”从何而来?研究团队设计了一套自动化流程,能够从公开的电脑操作录像中“提炼”出技能包。整个过程宛如五道精密工序。
首先是分类整理。系统将海量操作录像按任务相似性进行聚类,就像把食材按菜系分门别类。例如,所有与浏览器相关的操作归为一类,所有与表格软件相关的归为另一类。
其次是规划技能蓝图。在每一类任务中,一个AI“规划师”会浏览这些录像,识别出反复出现的有用动作模式,并初步规划出一份份技能蓝图,界定每个技能的起止边界和完成条件。
接着是合并去重。同一个技能可能在不同录像中以略微不同的形式出现,系统会将这些相似的蓝图合并,同时剔除那些过于宽泛、几乎适用于任何任务的“万金油”技能。
然后是撰写文字稿。系统先不参考任何图片,仅依据文本信息撰写每个技能的描述、操作步骤和状态卡片的初稿。这类似于作者先完成小说大纲,再考虑配图。
最后才是配图与审核。此时,系统才会去查看相关的屏幕截图,精心挑选那些真正具有诊断价值的画面——通常是标志关键状态转变、需要视觉验证的时刻——并将它们匹配到对应的状态卡片旁。配图原则极其克制:只有在文字确实无法说清时才添加图片,绝不为了堆砌而堆砌。
这套流程有一个关键特点:所有用于提炼技能的录像数据,都与后续测试任务完全分离。这确保了技能包并非通过“考前漏题”获得,而是从无关数据中提炼出的、真正具备可迁移性的通用经验。
四、技能调用中的智能“分身”机制
制作出优质的技能包只是第一步,如何让AI在实际工作中高效、准确地运用它们,是另一个挑战。
最直观的做法是将整个技能包直接塞给AI,让它边看边做。但研究发现,这会引发一系列问题。技能包通常包含多张状态卡片和参考截图,全部加载会导致AI的“工作记忆”过载。更麻烦的是,AI很容易被参考截图“带偏”——它会执着于参考图中某个按钮的历史位置,而非关注当前屏幕的实际情况,就像拿着过时的地图开车,对路况变化视而不见。
对此,研究团队想出了一个巧妙的办法,称之为“分支加载”。可以将其理解为AI的智能“分身术”:当主AI在工作中遇到需要参考技能的时刻,它不会亲自去翻阅整本手册,而是召唤一个临时的“分身助手”专门处理此事。
这个分身助手分两步工作。第一步,它先快速扫描当前屏幕和近期操作历史,判断是否需要参考图片,以及具体需要哪几张。如果认为文字说明已足够,就不调取任何图片;若需要看图,则只挑选最相关的几张。第二步,分身将挑选出的参考图与文字状态卡片结合,仔细对照当前屏幕,最终向主AI回传一份精炼的“决策建议”——告知该技能是否适用、下一个子目标是什么、具体行动计划、有哪些潜在陷阱以及完成后如何验证。
主AI收到建议后,将其作为重要参考,但最终的具体操作决策,仍基于眼前真实的屏幕信息做出。这样,AI既享受了技能包提供的智慧指引,又避免了被静态参考资料束缚手脚,实现了动态的视觉对齐。
五、多场景实战检验:从办公到游戏
为了全面检验MMSkills框架的通用性和效果,研究团队选择了四个差异显著的测试场景进行评测。
OSWorld是主战场,包含360个真实的Ubuntu桌面操作任务,覆盖浏览器、办公软件、图像处理等十大类应用。macOSWorld则将战场移至苹果系统,包含143个任务。VAB-Minecraft把测试拉进《我的世界》游戏,让AI完成各种制作任务。Super Mario Bros则更进一步,让AI挑战经典的超级马里奥游戏。
测试结果令人鼓舞。在OSWorld这个最严格的测试平台上,所有被评估的AI模型在引入MMSkills后,表现均有显著提升。表现最强的Gemini 3.1 Pro,任务成功率从44.08%提升至50.11%;Gemini 3 Flash则从36.65%跃升至47.97%。提升最为显著的是阿里通义千问的Qwen3-VL-235B模型,其成功率从21.34%几乎翻倍,达到39.17%。而对于较小的Qwen3-VL-8B-Instruct模型,提升幅度更为惊人——从仅10.78%飙升至25.40%。这个现象很有意思:能力相对较弱的AI,从外部视觉指导中获得的帮助反而更大,恰如新手厨师比经验丰富的大厨更需要详细的图文食谱。
值得注意的是,纯文字版本的技能在某些场景下也有帮助,但效果远不如完整的多模态版本稳定,有时甚至在特定应用上会出现性能倒退。这印证了研究团队的判断:当任务高度依赖视觉状态判断时,仅有文字描述是远远不够的,必须结合视觉证据。
跳出桌面环境,效果同样亮眼。在macOSWorld上,使用MMSkills的Gemini 3 Flash将整体成功率从55.94%提升到65.73%。在《我的世界》游戏中,所有模型的成功率和平均得分均得到提升。在超级马里奥关卡里,AI的总体表现分和获得奖励数也显著上涨。这表明,这套技能框架并非只适用于特定电脑环境,而是能帮助AI在各种需要“视觉推理”和“图形界面操作”的场景中表现得更好。
六、框架组件消融实验:拆解核心价值
为了厘清MMSkills框架中哪些设计真正发挥了关键作用,研究团队进行了一系列消融实验,就像拆开精密仪器观察每个齿轮的功能。
尝试移除技能包中的“状态卡片”,只保留文字流程和图片,结果性能明显下降——状态卡片在判断“此时是否该使用此技能”上扮演着关键角色。接着,尝试保留状态卡片但移除图片,性能同样下滑——图片对于在屏幕上定位关键元素不可或缺。这两项实验共同证明,文字流程、状态卡片和视觉证据三者如同三足鼎立,缺一不可,共同构成了多模态技能的核心。
关于“分支加载”使用方式的实验更有意思。如果将整个技能包直接塞给AI,其性能反而比完全不使用技能还要差——信息过载把AI“撑着了”。即使配备了视图筛选机制但仍直接加载,效果也只是回归基线水平。只有当采用完整的两步分支机制——先筛选、再分析、最后回传建议——才能取得最佳效果。这证明了智能调用机制的重要性。
七、AI行为模式的深度转变
除了成功率的表面数字,研究团队还深入分析了使用MMSkills后AI“行为模式”的转变,发现了一些深刻的变化。
首先是技能调用频率的提升。配备多模态技能后,AI更倾向于主动参考技能。在Qwen3-VL-235B模型上,OSWorld任务中调用技能的比例从37.50%大幅上升至65.28%。这说明多模态技能不仅更好用,AI也更容易识别出“此时适用此技能”的时机,人机交互的主动性增强。
其次是任务完成步骤的减少。文字技能有时反而会让AI多走弯路,而多模态技能在每一个测试场景中都显著缩短了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降至9.87步,减少了超过三分之一。这意味着AI找到了更高效的解题路径,不再像无头苍蝇般盲目尝试,执行效率大幅提升。
第三个发现关乎视觉证据的选择。分支助手并非加载所有图片,而是表现出明显偏好——在四个测试场景中的三个里,“局部特写”是被选用最多的视图类型。这符合直觉:大多数时候,AI需要的是“那个按钮在哪里”这类局部定位信息,只有在需要理解整体布局或验证全局变化时,才需要全屏或前后对比图。
更深入的行为分析揭示了一些根本性变化。使用MMSkills后,AI执行的低级操作总数明显减少。以Qwen3-VL-235B为例,它原本75.8%的动作都是点击,使用技能后这个比例下降至63.7%,而键盘输入和“完成”动作的比例相应上升。这表明AI从盲目点击的模式,转向了更有条理的输入和更明确的完成判断,行为更具目的性。
重复无效操作也大幅减少。同一个模型,原本21.8%的动作是重复操作,使用MMSkills后这一比例骤降至6.2%。AI不再陷入“反复点击同一位置却毫无进展”的尴尬循环。同时,“完成”动作的使用频率上升,说明AI更清楚地知道任务何时才算真正结束——这得益于状态卡片中提供的明确验证线索。
八、真实任务案例现场解析
研究团队展示了两个具体任务案例,以清晰说明MMSkills的实际工作流程。
第一个案例是在表格软件中创建销售汇总表。任务要求创建一个名为Sheet2的新工作表,并填入月份和总计两列数据。AI首先意识到当前位于Sheet1,需要先创建新工作表,于是召唤分支助手参考“工作表管理”技能。分身助手挑选了几张关于工作表切换的局部特写图,对照当前屏幕后建议主AI:“先创建Sheet2,不要在Sheet1上直接输入数据”。主AI随即创建新工作表并输入表头及月份。当需要填入总计公式时,AI又召唤了第二个技能——“公式与函数”,这次分支助手判断无需参考图片,直接给出了文字指导。最终,AI成功使用SUM公式从Sheet1引用数据,全程仅用8步动作,高效准确。
第二个案例发生在终端命令行中,任务是将30天前的旧文件压缩到一个文件夹,并将新文件移至另一个文件夹。AI最初尝试的find命令在终端输入时出现了语法问题。意识到不对劲后,AI召唤“文件夹管理”技能,分支助手判断终端任务无需看图,直接用文字建议“使用更稳健的命令格式”。AI修正命令后成功完成了文件移动。随后在需要压缩归档时,AI又调用了不同的“归档压缩”技能,最终顺利完成任务并验证了结果。
这两个案例生动展示了MMSkills的智能工作流:AI在不同阶段调用不同的技能,分支助手智能判断是否需要图片证据,最终AI综合所有信息做出决策,实现了动态的、上下文感知的任务执行。
九、与现有方法的对比分析
在AI助手与智能体领域,“技能”的概念并非全新。早期研究主要将技能表达为文字提示或可执行代码,例如让AI学会“打开网页搜索”这类原子操作。后来出现了更精细的方法,有的将技能存储为可调用的API函数,有的构建技能执行图,有的让多个AI智能体协作进化出共享技能库。
与本研究最接近的几项工作各有侧重。Mirage-1引入了层次化的多模态技能用于图形界面控制,XSkill从视觉化操作经验中持续提取技能,CUA-Skill将计算机操作技能表达为带参数的过程和执行图。MMSkills与这些工作的关键区别在于:它围绕“运行时状态卡片”和“多视角视觉证据”来组织技能,并通过“分支加载”机制,将选中的证据与当前屏幕实时对齐后再指导主AI行动。换言之,它不仅关注“动作怎么做”,更强调“什么时候做、看到什么才做、做完怎么验证”,实现了技能与视觉上下文的深度绑定。
十、意义、应用与未来展望
归根结底,这项研究瞄准的是一个非常实际的目标:让AI助手在帮助人们操作电脑、玩游戏或处理各种视觉任务时,变得更加可靠、智能,更少犯那些依赖纯文本指令时常见的“低级错误”。
从日常生活与工作效率层面看,这意味着未来的AI助手或许真能帮你完成那些繁琐且需要“视觉判断”的复杂工作——如整理复杂表格、进行图像编辑、智能安排日程、甚至辅助通关游戏关卡。它们不会因为找不到按钮而反复乱点,不会因识别不出弹窗状态而傻等,也不会在任务做到一半时还不确定是否完成,真正成为得力的数字助手。
对于AI研究者与开发者而言,这项工作提供了一个新视角:AI智能体可重复使用的经验,不应仅仅是文字说明书或代码模板,而应该是与视觉证据紧密绑定的“图文操作指南”。这种思路打破了过往技能体系过度依赖文本的局限,为构建更强大的多模态AI系统指明了方向。
当然,研究团队也坦诚指出了当前方法的局限。这套方法依赖于源数据的覆盖范围——如果某类任务在公开数据中很少出现,提炼出的技能就可能不够完善。技能生成过程和视觉定位也可能出错。分支加载机制虽然提升了准确性,但也增加了一定的推理计算成本。要将此方法推广至更广泛的具身AI或安全敏感场景,还需要更强的验证机制和在线修复能力。
说到底,这项研究揭示了一个朴素却关键的道理:要让AI真正学会“看着办”,仅提供文字说明是远远不够的。就像教孩子做菜,光给菜谱不行,还得让他看着师傅操作、观察锅中食材的颜色变化、知道什么状态才算炒好了。AI的进步,或许就藏在这些看似细微、实则至关重要的“图文配合”与“视觉对齐”之中。MMSkills框架为AI理解并操作图形界面世界,迈出了坚实的一步。
Q&A
Q1:MMSkills和传统的AI技能包有什么区别?
传统AI技能包主要用文字或代码描述操作步骤,好比纯文字菜谱。而MMSkills是图文结合的智能技能包,除了文字流程,还包含核心的“状态卡片”和多视角参考截图。状态卡片明确告诉AI何时该用此技能、何时不适用、以及看到何种画面才算做对。这让AI不仅知道做什么,还知道该看什么、如何判断进度与成功,实现了从“盲操作”到“视觉引导操作”的跨越。
Q2:分支加载机制是怎么工作的?
当AI在执行任务中遇到需要参考技能的情况时,它不会亲自翻阅整本技能手册,而是召唤一个“临时分身”专门处理。这个分身先智能判断是否需要看图、看哪些图,然后将挑选的参考图与当前屏幕进行实时比对,最后向主AI回传一份精炼建议——告知技能是否适用、下一步做什么、需避开哪些陷阱。这样既获得了技能帮助,又避免了被过时或无关的参考图误导,确保了决策基于当前视觉上下文。
Q3:MMSkills实际效果如何?性能提升明显吗?
在OSWorld桌面任务测试中,所有被测试的AI模型表现均有显著提升。例如,Qwen3-VL-235B的成功率从21.34%几乎翻倍至39.17%;较小的Qwen3-VL-8B模型则从10.78%提升至25.40%。在《我的世界》和超级马里奥游戏测试中也有显著提升。AI不仅成功率更高,完成任务所需的步骤也更少,重复无效操作大幅减少,行为模式更加高效和确定。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
上海交大突破AI视觉技术让智能助手实现看图办事
上海交通大学等机构提出MMSkills框架,使AI助手能结合视觉信息执行任务。该框架整合操作流程、状态卡片与多视角参考图,形成可迁移的多模态技能包,并通过分支加载机制智能调用技能、实时对齐屏幕。实验显示,该方法可显著提升AI在办公、游戏等视觉任务中的成功率和效率,减少无效操作。
三星电子研发250TB超大容量近线固态硬盘技术解析
三星电子正开发超大容量“近线固态硬盘”,起步容量达250TB,旨在替代机械硬盘。该产品采用高密度规格,能在有限空间实现PB级存储。其基于新型闪存技术,写入寿命较低但成本显著下降,专为写入少、读取多的温数据场景优化,性能与QLC闪存相当。这标志着存储介质正根据数据层级进一步细分。
荣耀WIN Turbo系列三色官图亮相 5月29日正式发布
荣耀公布WINTurbo系列手机三色官图,新机将于5月29日亮相。配色命名贴合游戏主题。据悉,该机或配备1 5K直屏、金属中框、5000万像素防抖主摄及16GB+512GB存储。虽名含“Turbo”,但未内置主动散热风扇,具体散热方案待发布揭晓。
朱杨柱父亲再谈儿子飞天 坦言此次心态更为平和
神舟二十三号指令长朱杨柱将再度飞天,家乡亲友倍感自豪。父亲从容且对国家航天技术充满信心。朱杨柱曾作为首位航天飞行工程师在轨工作154天,操作零失误。此次他以指令长身份带队执行任务,众人祝福其圆满成功、平安凯旋。
鑫耀中城启动ALL-IN-AI产业片区发现计划首站
ALL-IN-AI产业片区发现计划”首站活动在上海徐汇漕河泾举行,旨在推动AI技术向实际生产力转化。活动通过企业路演展示AI能力链,并揭幕“CityVeeStation”产业赋能网络。讨论聚焦企业资源互通与生态融合,强调需“翻译者”与“组局者”促进合作,探索以AI为核心的片区赋能新模式,助力企业降低转型成本。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

