中国科学院与香港理工大学团队让AI看懂电脑屏幕实现智能软件交互

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

中国科学院与香港理工大学团队让AI看懂电脑屏幕实现智能软件交互

热心网友时间：2026-05-16

转载

这项研究由中国科学院大学、中国科学院自动化研究所新型模式识别实验室、多模态人工智能系统国家重点实验室、香港科创研究院以及香港理工大学联合开展，论文于2026年4月发表，论文编号为arXiv:2604.24441v1。

一、这件事为什么值得普通人关注

你有没有试过把一项繁琐的电脑操作交给AI来完成？比如整理表格、发送邮件，或者在网站上填写表单？如今市面上确实有不少类似的“电脑操作助手”，但它们的“聪明”程度，可能远低于你的想象。

大多数这类助手的工作模式，更像是一个只会盲目跟随导航的司机——只知道“下一个路口左转”，却完全不理解自己身处哪条街道、为什么要在这里转弯。换句话说，它们能执行简单的点击指令，却根本不明白屏幕上那些按钮、菜单、区域究竟承担着什么功能。

这就引出了一个根本性问题：一个不理解屏幕语义的AI，在遇到稍微复杂一点的情况时，很容易彻底“迷路”。比如，同一个图标在不同软件里功能完全不同；或者一个不起眼的灰色小图标，点击后可能触发一连串连锁操作。

上述论文的核心任务，正是要搞清楚当前最先进的视觉语言模型（即既能“看图”又能“读字”的AI）到底有多懂电脑屏幕。为此，研究团队构建了一套名为AutoGUI-v2的测试体系，包含2753道精心设计的题目，专门用来考察AI是否真正理解了界面功能，而不仅仅是认出了按钮的外观。

二、AI看屏幕和人看屏幕有什么本质区别

人类在使用电脑时，积累了大量直觉经验。看到左上角那个软盘图案的图标，你几乎不假思索就知道是“保存”；看到工具栏上一排颜色、形状相似的按钮，你能凭经验猜出它们分别控制着字体的粗细、对齐或行间距。这种理解并非来自单纯的“图像识别”，而是基于你对这些元素在整个软件操作流程中所扮演角色的认知。

反观现有的AI测试，题目大多是这样的：“屏幕上有一个标着‘All’文字的小标签，请找出它在哪里。”或者：“这个按钮叫做‘打开搜索设置下拉菜单’，请点击它。”这类问题本质上考察的是“认字认图”的能力，只要AI能看清屏幕上的文字或图形，通常都能答对。

AutoGUI-v2团队提出的挑战则截然不同。他们的问题是：“如果你想同时搜索多个通讯录，应该用屏幕上的哪个搜索区域？”或者：“点击这个被红框标出的元素，会发生什么？”这类问题不提供任何外观描述线索，迫使AI必须真正理解每个区域在软件流程中的功能定位，才能给出正确答案。

这无疑是一个根本性的跃升——从“认出它长什么样”到“明白它是干什么的”。

三、研究团队是怎么建立这套考卷的

构建这样一套测试题，本身就是一个不小的工程挑战。你需要收集大量真实的电脑界面截图，然后对图中每一个功能区域进行精确标注：说明这块区域是干什么的，边界在哪里，以及与旁边看起来相似的区域在功能上有何区别。如果全靠人工完成，不仅耗时费力，标注质量也很难保持一致。

研究团队采用了一种“AI初稿、人工精修”的流水线工作法。他们先请能力强大的Gemini 2.5 Pro Thinking模型充当“初审员”，让它自动分析截图，将每张屏幕图片切割成若干个有意义的功能区块，就像把一张城市地图划分成不同的行政区。每个区块都会被附上功能描述和边界框坐标。

然而，仅靠AI划定的边界往往不够精确。模型标出的框可能包含了多余空白，或者不小心截掉了按钮的边缘。为了解决这个问题，团队开发了一套专用的网页标注工具。标注员可以在浏览器中打开任意截图，查看AI划定的区域，然后用鼠标拖拽调整边界，精确到每一个像素。工具还内置了辅助功能，比如鼠标按住时会自动“吸附”到附近的边缘线上，极大降低了手工误差。

完成边界修正后，还有最后一步：由于人工调整了区域边界，原先AI生成的功能描述可能已不再匹配新的视觉内容。因此，需要再运行一轮AI，为每个区域重新撰写功能说明，并由人工进行最终审核，确保描述准确、具体，且没有产生“幻觉”错误。

整个流水线处理了来自安卓、Windows、Linux、MacOS、网页等六大平台的截图，最终产出了3710个经过精确标注的功能区域，覆盖了从移动端到专业桌面软件的各种界面类型。

四、题目是怎么设计的，为什么这么难

AutoGUI-v2的核心设计思路，是让所有题目都无法依靠“认长相”来蒙混过关。为此，研究团队专门寻找那些“看起来极其相似但功能完全不同”的区域或按钮，将它们配对成组，作为题目的迷惑选项。

以区域级题目为例：一张屏幕上可能同时存在好几条深色横条——顶部是操作系统的状态栏，应用内部有菜单栏、工具栏、底部状态栏。它们的外观可能非常相似，都是深底色配浅色文字或图标的横向长条。但点击系统状态栏会弹出系统设置，点击菜单栏会展开文件/编辑等菜单，点击底部状态栏则可能显示文档字数或光标位置。如果只凭外观，这几条横条几乎一模一样；只有真正理解了每条横条在软件结构中的功能角色，才能正确区分。

题目主要分为两大类型。第一类是“功能定向定位”：给AI一个任务描述，例如“如果想在多个通讯录里同时搜索联系人，应该用哪个搜索区域？”，让AI找出正确区域的位置（用坐标表示）。第二类是“功能预测描述”：给AI圈出一个特定区域，询问点击或操作该区域后会发生什么，并提供几个选项，其中迷惑选项往往来自外观相似的其他区域的功能描述。

元素级题目同理，但考察对象是更细粒度的单个按钮或图标。有些题目还会加入具体的交互方式，如“双击”、“长按”、“右键点击”、“悬停”，因为同一个元素在不同交互方式下可能触发完全不同的结果。

此外，数据集中截图的分辨率相当高，最高达到3840×2160，这对AI构成了额外挑战——它需要在高清大图中定位可能只有几十个像素宽的目标区域。

五、考核结果：两类AI在两类题上交出了相反的成绩单

当研究团队将这2753道题分别交给十几款当前最先进的AI模型作答时，一个耐人寻味的现象出现了。

先说“找到在哪里”这类定位题。经过专门界面操作任务训练的开源模型表现得出人意料地好。例如Qwen3-VL-32B和GLM-4.5V，在区域定位任务上的准确率分别达到了84.4%和84.6%，显著领先于商业闭源模型。而被公认为顶级商业模型的Gemini 2.5 Pro Thinking，区域定位准确率为77.6%，GPT-5更是只有31.4%。这个落差表明，大量的界面操作数据微调，对于“找位置”这种需要精准坐标输出的任务至关重要。

然而，到了“说出功能是什么”这类描述题，局面完全颠倒。Gemini 2.5 Pro Thinking以86.2%的准确率在区域功能描述任务中名列前茅，GPT-5以88.1%略胜一筹，OpenAI的O3和Claude Sonnet 4.5也都在84%左右。而开源的Qwen3-VL-32B则只有80.1%，GLM-4.5V维持在86.8%尚可一战，但其余开源模型普遍不及商业模型。

研究团队将这种“此消彼长”的现象称为“定位-理解分裂”。直白地说就是：专门训练界面操作的开源模型学会了精准地“指哪打哪”，但对功能语义的抽象理解能力相对有限；而商业大模型凭借海量的世界知识和语言理解能力，能更准确地描述一个界面元素“是干什么的”，却在精准坐标输出上不如专项模型灵活。

在元素级别的考核中，这一分裂同样清晰。Qwen3-VL-32B以71.1%的功能定位准确率排名第一，Gemini 2.5 Pro Thinking为67.7%；而在功能描述题上，Gemini 2.5 Pro Thinking以70.3%领先，Qwen3-VL-32B只有61.3%。

六、哪类界面元素最难考，哪类最简单

研究团队不仅看了总分，还对不同类型的界面区域分别统计了准确率，得到了一些有趣的发现。

对于标准化程度高的区域，比如“主容器”（软件主窗口）、“交互控件”（搜索框、筛选器、分页器），几乎所有模型的表现都相对较好。这并不难理解，因为这些元素在无数软件中反复出现，格式高度统一，AI见过太多例子，自然容易识别。

而标注为“其他类型”（Others）的区域则是整体失分最惨的类别，这类区域包括颜色选择器、品牌Logo、手机主屏幕的特殊布局等非常规界面元素。几乎所有模型在这类区域上的准确率都比表现最好的类别低5%以上，说明模型对于这些不常见的界面组件缺乏足够的认知基础。

在不同交互方式上，难度差异更加戏剧化。“长按”和“输入文字”这两类交互，因为视觉反馈通常很明显（长按常弹出菜单，输入文字会直接改变内容），模型的准确率较高。而“右键点击”几乎让所有商业模型集体折戟——O3、GPT-5、Claude Sonnet 4.5在右键点击相关题目上的准确率几乎为零。“悬停”（鼠标放在元素上但不点击）也是普遍的弱点，因为悬停触发的往往是一个短暂出现的提示气泡，这种细微的交互结果让模型很难预判。

七、“迷惑选项”揭示的深层问题

研究团队在题目设计上做了一个精心的区分：每道功能描述题不仅设有迷惑选项，还对迷惑选项的“迷惑程度”进行了分级。“困难”迷惑选项来自外观相似的邻近功能区域，与正确答案只有一步之遥；“简单”迷惑选项则是随机抽取的、毫无关联的功能描述，与正确答案几乎没有混淆的可能。

如果模型真正理解了功能，那么它在面对困难迷惑选项时的错误率，应该与面对简单迷惑选项时相差不大。但实际数据表明，几乎所有模型在困难迷惑选项上的错误率都显著高于简单迷惑选项。例如，GPT-5在区域功能描述题上，简单选项错误率只有2.8%，困难选项错误率则上升到9.1%；Claude Sonnet 4.5的简单错误率为5.4%，困难错误率为10.6%。

这个规律清楚地说明，模型并非在随机犯错，而是确确实实地被“长得像但功能不同”的选项迷惑了。它们的判断在很大程度上依赖于表面的视觉特征匹配，而非对功能语义的深层理解——这也正是研究团队最想暴露出来的核心缺陷。

八、Gemini是怎么失手的，案例分析

研究团队对Gemini 2.5 Pro Thinking的答错案例进行了详细分析，发现了两种清晰的失败模式。

在定位类题目上，Gemini通常能在推理过程中正确识别出目标元素是哪个，但最终输出的坐标框往往不够精准——要么框得太松，包含了大量无关区域；要么框的位置整体偏移，框住了错误的角落。这反映出商业模型虽有语义理解能力，但在精确坐标回归这个纯数值计算任务上存在明显短板。

在功能描述类题目上，Gemini的失误集中在两类场景。第一类是“系统层次混淆”：屏幕上同时存在操作系统级别的顶部状态栏和软件应用自身的标题栏时，Gemini容易将两者搞混。例如，在一道题中，一个LibreOffice Writer窗口的标题栏被红框标出，Gemini推断那是软件的“主工具栏”而非“窗口标题栏”。它在推理时更多关注了视觉上占据屏幕显眼位置的特征，而没有准确判断该区域在窗口管理层级中的实际角色。第二类是“状态推断失败”：比如面对一个可折叠的文件夹图标，Gemini无法准确预判点击后哪个具体的子目录会展开或收起，因为这需要结合当前界面的状态信息来判断，不能仅靠静态图像推断。

此外，在元素定位题目中，Gemini的推理文本往往会进行冗长的坐标计算，试图用语言推算出“工具栏大概从哪个像素开始、第几个图标大概在什么位置”，但这种基于估算的坐标推导往往错误百出。

九、周围越热闹，反而越容易找对——密度效应的意外发现

研究团队还引入了一个新颖的评估维度，叫做“归一化干扰密度”（NID），用来衡量目标元素周围有多少其他元素“挤”在附近。根据密度高低，所有题目被分为稀疏、中等、密集三组。

直觉上可能会认为，周围元素越密集，越容易混淆，答题也越难。但实际数据呈现的规律恰恰相反——对于大多数模型来说，密集环境下的定位准确率反而更高。

研究团队给出的解释是：当一个元素周围有很多其他元素时，它处于一个丰富的上下文环境中。这些“邻居”本身提供了大量线索，帮助AI判断“这一块区域是什么功能区”。相反，一个孤零零出现在屏幕边角、周围空无一物的孤立元素，反而让AI无法借助上下文来推断其功能定位，只能依靠孤立的视觉外观来猜测，出错的概率反而更高。

当然，不同类型的模型在这方面的偏好并不完全一致。商业大模型（如O3、GPT-5）和专门的界面定位模型（如OS-Atlas）普遍在密集环境下表现更好；而一些通用型开源模型（如Step-3、GLM-4.5V）则反过来，在稀疏环境下表现更佳，这可能是因为它们更依赖对单一视觉特征的直接匹配，密集环境反而形成了干扰。

十、这项研究对未来意味着什么

说到底，AutoGUI-v2揭示的并不只是一组数字得分，而是当前AI界面理解能力的一张清晰的“X光片”。

这张“X光片”显示：AI在识别屏幕元素方面已经取得了相当不错的成绩，但对于界面功能的深层理解——尤其是不常见的控件、复杂的交互方式、需要结合上下文状态才能判断结果的操作——依然是巨大的短板。这意味着，如果你今天把一项复杂的软件操作任务交给AI，遇到非标准界面或者需要右键菜单、悬停提示之类的精细操作时，它大概率还是会出错。

从更长远的角度看，这项研究提出了一个重要问题：要让AI真正成为可靠的“数字操作员”，仅仅依靠大量的操作数据训练是远远不够的。模型需要建立起对界面结构的层次化理解，知道哪些元素属于操作系统层、哪些属于应用层、哪些是当前对话框的临时状态，并且能够预判交互会如何改变软件的状态——就像一个有经验的用户那样，在瞥见界面的第一眼，就能凭直觉推断出大部分控件的功能和后果。

这项研究发布了完整的测试数据集和代码，为后续研究者提供了一个标准化的评测平台。任何新的AI界面理解模型都可以拿来测试，看看自己的“屏幕理解力”达到了什么水平。

归根结底，这项研究阐明了一件听起来简单但意义深远的事：让AI“看懂”屏幕，和让AI真正“理解”屏幕，是截然不同的两件事。前者我们已经做得不错，而后者，我们才刚刚开始。

Q&A

Q1：AutoGUI-v2测试的是什么能力，与普通的AI视觉理解测试有什么不同？

AutoGUI-v2专门测试AI对图形界面功能的理解能力。它不只是让AI找出某个按钮“长什么样子”或“叫什么名字”，而是要求AI回答“这个区域是干什么的”以及“操作它之后会发生什么”。普通的界面理解测试通常只考察能否根据外观描述定位元素，而AutoGUI-v2故意把外观相似但功能不同的元素配成迷惑组，强迫AI必须真正理解功能语义才能答对。这使得AutoGUI-v2比现有测试难度大得多，也更接近AI在实际操作任务中面对的真实挑战。

Q2：为什么开源模型在找位置上比GPT-5等商业模型还厉害？

这是因为Qwen3-VL、GLM-4.5V等开源模型经过了大量专门的图形界面操作数据微调训练，学会了如何精确输出坐标框来定位屏幕上的特定区域。这种专项训练赋予了它们在坐标回归任务上的优势。而GPT-5、Gemini等商业模型的训练更侧重于通用语言理解和知识积累，没有专门针对界面坐标输出做优化，因此在“找到具体位置”这件事上反而不如专项训练的开源模型精准。不过，商业模型在“描述功能是什么”上更胜一筹，两类模型可谓各有所长。

Q3：AutoGUI-v2发现所有AI对哪类界面操作最没把握？

右键点击和悬停（鼠标放上去但不点击）是几乎所有模型的共同弱点。对于右键点击，O3、GPT-5、Claude等主流商业模型的准确率接近于零，因为右键菜单的内容高度依赖上下文，难以从静态截图推断。悬停触发的通常是短暂出现的提示气泡，视觉信号微弱，模型也难以准确预测。此外，非标准界面元素如颜色选择器、品牌Logo等也是普遍失分点，说明模型对不常见界面组件的认知储备严重不足。

来源:https://www.techwalker.com/2026/0506/3185841.shtml

上一篇：浙江大学攻克AI三维视觉难题实现精准可控图像编辑

下一篇：中科院研发230M手机AI模型小体积如何超越70亿参数大模型