港大发布纯视觉AI助手无需代码即可让电脑看懂屏幕操作
香港大学与Salesforce研究院联合研发的AGUVIS系统,在2025年第42届机器学习国际会议(ICML)上正式亮相。这项突破性研究(论文编号PMLR 267)提出了一种全新的“纯视觉”AI助手,它能够像人类一样直接观察并操作屏幕,彻底改变了传统自动化依赖代码解析的范式。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

我们操作电脑或手机时,看到按钮就点击,遇到输入框就打字,整个过程直观而流畅。然而,让AI助手实现同样的操作,长期以来却是一个技术难题。传统方案需要将网页或应用的底层代码“翻译”成机器指令,过程繁琐且缺乏通用性。如今,AGUVIS系统的出现带来了根本性变革,它实现了真正的“纯视觉界面理解”,仅通过分析屏幕图像就能执行任务,无需任何代码适配。
一、告别“翻译员”:为什么纯视觉操作如此重要
以往,让AI操作图形界面(GUI)就像让一个只懂外语的游客依赖翻译。AI必须解析HTML、可访问性树等底层代码,才能理解界面元素。这种方法不仅效率低、易出错,而且每面对一个新的应用或网站,都需要重新开发适配逻辑,维护成本极高。
AGUVIS的革命性在于,它完全摒弃了这套中间“翻译”层。它直接“观看”屏幕像素,像人一样通过视觉特征来识别按钮、输入框、菜单等元素。无论是网页、手机App还是桌面软件,AGUVIS都能通过统一的视觉感知进行操作。这种方法带来了三大核心优势:极强的通用性,在一个平台学到的技能可迁移到其他平台;更高的执行效率,视觉处理比解析复杂代码更快;更低的部署门槛,无需为每个新环境编写特定的集成代码。
二、会“思考”的AI:内在思维让操作更智能
AGUVIS一个关键创新是引入了“内在思维”机制。面对复杂任务时,它不会立即行动,而是先进行内部推理和规划。例如,在“预订机票”任务中,AGUVIS会先思考:“当前页面是搜索页面,我需要先选择出发城市,然后输入目的地,再选择日期。”完成思考后,再一步步执行点击和输入操作。
这种“先想后做”的机制,使AGUVIS能够胜任需要多步骤规划和动态调整的复杂任务。实验证明,具备内在思维能力的AGUVIS,在完成购物、信息查询等多步流程任务时,成功率显著高于直接操作的模型。同时,这种可解释的推理过程也让AI的决策逻辑更加透明。
三、统一的“万能钥匙”:跨平台操作的技术突破
数字世界平台繁多,网页、iOS、Android、Windows各有不同。传统方法需要为每个平台开发专用方案。AGUVIS通过设计一套统一的“行动空间”解决了这一问题,将所有操作抽象为有限的几种基础动作,如点击、输入文本、按键、滚动等。
这就像为AI建立了一套跨平台的“通用语言”。无论操作对象是网页上的下拉菜单还是手机上的滑动列表,AGUVIS都使用同一套指令集。配合智能插件系统,它能根据当前环境自动加载合适的工具。这种设计带来了强大的跨平台迁移学习能力——在网页上学到的点击技能,可以直接用于操作桌面软件,无需重新训练。
四、海量数据的智慧结晶:训练数据的创新构建
要训练AI“看懂”界面,需要海量高质量的“屏幕-操作”数据。研究团队创新地采用了两阶段数据构建策略:
1. 基础操作数据:包含超过100万个单步操作示例,覆盖点击、输入等所有基础动作,训练AI的“肌肉记忆”。
2. 复杂推理数据:利用大语言模型(如GPT-4o)模拟人类专家,在面对屏幕截图和任务时,生成前瞻性的思维链(例如:“要完成订酒店,我需要先按价格排序,再查看评分”)。这种方法生成了高质量的规划数据。经人工评估,超过86%的生成数据准确且一致,为模型学会了“如何思考”提供了养料。
五、分阶段精进:从基础技能到高级推理的训练策略
AGUVIS的训练遵循了从“基础”到“高级”的科学路径:
第一阶段:基础操作训练。专注于让模型精准识别界面元素并执行原子操作,打好基本功。采用“操作打包”技术,将同一屏幕下的多个相关操作一起训练,帮助模型理解界面元素间的关联。
第二阶段:规划推理训练。在此阶段引入包含完整思维链的复杂任务数据,重点培养模型的战略规划、任务分解和情境适应能力。这种分阶段策略确保了模型基础扎实,能稳健地处理复杂任务。
六、架构选择的智慧:为什么选择Qwen2-VL
AGUVIS选择Qwen2-VL作为其视觉理解的核心,主要基于两大优势:
1. 高分辨率图像处理能力:其采用的NaViT风格编码器能动态处理不同分辨率的屏幕截图,保留按钮文字、图标细节等关键信息,避免因压缩图像导致的细节丢失。
2. 强大的空间感知能力:通过2D-RoPE位置编码,模型能精确理解屏幕上各个元素的相对位置,这对于实现精准点击至关重要。
团队将输入图像分辨率设置为1280×720,在模型性能和计算开销之间取得了最佳平衡。对比实验表明,AGUVIS框架虽兼容其他视觉模型,但Qwen2-VL在精度和效率上综合表现更优。
七、全面评估:在各种挑战中证明实力
研究团队通过多维度基准测试验证了AGUVIS的强大性能:
- ScreenSpot基准:在移动端、桌面端和网页端的元素定位任务中,AGUVIS均取得领先成绩。
- Multimodal-Mind2Web基准:在仅凭网页截图进行多步导航的离线评估中,AGUVIS的任务成功率比传统方法提升超过50%。
- AndroidControl基准:在手机操作任务中,无论是高层规划还是底层执行,AGUVIS都表现出色。
- 在线实时评估:在Mind2Web-Live、AndroidWorld等动态真实环境中,AGUVIS达到了业界顶尖水平,且是首个完全基于开源技术达成此性能的系统。
效率方面,AGUVIS的视觉方案相比传统HTML解析方法,处理成本降低93%,输入效率提升70%。
八、深度解析:训练策略的精妙设计
通过详尽的消融实验,团队验证了多个关键设计决策:
- 训练顺序:“先基础后高级”的分阶段训练,在复杂任务上显著优于“基础与高级联合训练”,证明了循序渐进的重要性。
- 内在思维的价值:引入思维链不仅提升了复杂任务成功率,甚至增强了基础操作的准确性,说明“三思而后行”减少了鲁莽错误。
- 跨平台增益:使用网页和手机混合数据训练的模型,在纯网页任务上的表现优于仅用网页数据训练的模型,证实了技能的可迁移性。
- 错误分析:当前系统的主要错误来源于指令歧义(40%)和操作定位失误(60%)。研究还发现,强制模型进行明确推理可以解决20%的定位错误。
九、超越实验室:真实世界的适应能力
AGUVIS的实用性体现在其对未见过场景的泛化能力上:
- 面对训练数据中未出现的网站Cookie弹窗,AGUVIS能正确识别其为干扰项,并执行关闭操作,然后继续主任务。
- 在涉及操作系统级任务的OSWorld基准测试中,尽管仅在网页和手机数据上训练,AGUVIS在桌面GUI任务上仍取得了可观的成绩,展现了其基于视觉原理进行泛化的潜力。
这意味着AGUVIS学习的是“如何与图形界面交互”的通用原理,而非机械记忆特定界面,因此对界面布局的微小变化具有更强的鲁棒性。
十、技术创新的深远影响
AGUVIS的突破不仅是性能的提升,更代表了GUI自动化领域的范式转变:
1. 技术范式转换:证明了“纯视觉”路径的可行性与优越性,为构建通用AI助手提供了新方向。
2. 推动开源生态:其模型、代码和数据完全开源,极大降低了研究门槛,将加速全球在该领域的技术创新。
3. 实用价值巨大:为开发真正“一次训练,多处适用”的通用数字助手铺平了道路,并在无障碍辅助、软件自动化测试、RPA(机器人流程自动化)等领域有广阔应用前景。
4. 经济性优势:高达93%的成本降低,使其具备大规模商业部署的可行性。
当然,技术的普及也需同步构建安全与伦理框架,确保AI助手的行为安全可控。总体而言,AGUVIS让我们向“AI像人一样自如操作电脑”的未来迈出了坚实的一步,其开源开放更将推动这一未来加速到来。
Q&A
Q1:AGUVIS相比传统AI助手有什么核心优势?
A:AGUVIS的核心优势是“纯视觉操作”。它无需解析应用底层代码或依赖任何特殊接口,仅通过“看”屏幕就能理解和操作,就像人类一样。这带来了极高的通用性、更快的适应速度和更低的部署成本。实测显示,其处理效率比传统代码解析方法提升70%,综合成本降低93%。
Q2:AGUVIS的“内在思维”具体如何提升性能?
A:“内在思维”指AI在执行前先进行内部推理和规划。例如,面对“查询波士顿到北站的航班”任务,它会先规划步骤:“1. 点击出发地输入框,输入‘波士顿’;2. 点击目的地输入框,输入‘北站’。”这种机制使其能有效分解复杂任务,根据页面反馈动态调整策略,从而在处理多步骤、需推理的任务时,成功率得到显著提升。
Q3:这项技术何时能应用到普通产品中?
A:AGUVIS的研究成果(包括模型、数据集、训练代码)已全部开源,全球开发者和企业均可立即基于此进行二次开发和产品集成。虽然从实验室研究到成熟产品仍需工程化打磨,但其开源特性将极大加速这一进程。预计在未来一两年内,我们将能看到基于此类技术的更智能的自动化助手、无障碍工具和企业级RPA解决方案问世。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
香港科技大学AI文档检索技术突破:精准解析复杂图文资料
在信息爆炸的时代,从海量文档中精准定位所需内容是一项普遍挑战。无论是企业员工查找历史报告,还是研究人员检索特定数据,都如同大海捞针。对于依赖关键词匹配的传统搜索系统而言,理解包含复杂图表、表格和多样化版式的现代文档更是力不从心。它们往往只能“读懂”文字,却无法“看懂”文档的视觉结构与深层语义关联。
普罗宇宙工业产品矩阵2.0发布 全域共生生态战略详解
普罗宇宙发布全球首创成果:高精度融合数采解决方案AcCI与大白机器人智能上下料模组,并推出“全域共生”生态战略。AcCI破解AI数据难题,大白模组适配多行业产线,共同构建工业具身智能全栈能力。公司战略从技术创新转向生态构建,通过开放协作汇聚资源,瞄准智能制造新生态。
腾讯Hy3预览版调用量激增十倍 性能优化获市场验证
腾讯Hy3preview模型调用量超上代十倍,代码生成与智能体应用增长显著,反映AI正深度融入工作流程。行业焦点从参数规模转向场景渗透,代码与智能体成为商业化落地关键。
北京发布五大领域场景开放方案 推动18个应用场景落地
北京市发布方案,系统推动场景培育与开放应用,旨在加速新技术、新业态落地,培育新质生产力。方案围绕现代化产业体系、扩大内需、城市治理、公共服务、首都安全五大领域,规划了数字经济、绿色经济、智能制造、跨界融合消费、数智北京、智慧教育、韧性城市等18个具体场景,为创新提供实践平台。
微软投资OpenAI获巨额回报 130亿换来300亿营收
微软对OpenAI的130亿美元投资已带来约300亿美元收入,远超预期。其中约230亿美元来自OpenAI租用Azure云服务,其余源于Copilot等产品销售。双方近期调整协议,设定了380亿美元收入分成上限,为OpenAI节省潜在支出,同时微软获得更确定的分成期限与技术转售权。此前设定的高回报目标已超额实现。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

