当前位置: 首页
AI
浙江大学发布ClawGUI工具链让AI机器人学会操作手机

浙江大学发布ClawGUI工具链让AI机器人学会操作手机

热心网友 时间:2026-05-15
转载

手机屏幕,早已成为现代生活的核心界面。从点开微信到刷短视频,从订外卖到设闹钟,这些操作对我们而言是肌肉记忆,但对人工智能来说,却是一座需要翻越的技术高山。这不同于让AI生成文本或回答问题,操控手机要求AI必须真正“看懂”屏幕上的像素,并模拟人类手指去点击、滑动、输入——这类能像人一样操作图形界面的AI,被研究者称为“GUI智能体”。

过去几年,相关研究如雨后春笋,但一个根本性难题始终悬而未决:整个领域缺乏一套统一的工具链。各家团队自建训练环境、自定义评测标准、各自报告数据,导致模型之间难以公平比较,研究成果更难以转化为普通用户可用的产品。这好比一群厨师各自研发菜谱,但灶具、量具乃至装盘方式都各不相同,最终既无法评判高下,也无法让食客尝到成品。

正是为了破解这一困局,浙江大学的研究团队推出了ClawGUI。这套完整工具链的名字暗含“爪子”之意,寓意AI能像爪子一样精准抓取和操控屏幕。它将GUI智能体的训练、评测与真实部署三大环节整合进一个统一的工具箱,旨在为研究者和应用开发者铺平道路。

浙江大学出手,打造AI手机助手全套工具链——ClawGUI让机器人真正学会

一、教会AI“用手机”,难在何处?

在深入了解ClawGUI之前,不妨先思考一个问题:训练一个能操作手机界面的AI,为何比想象中困难得多?

沿用厨房的比喻,训练一个合格的“厨师”需要三个条件同时满足:一个能稳定练习的真实厨房(训练环境)、一套公平的评分标准(评测体系),以及一条毕业后能真正上岗的路径(部署方案)。而现有的GUI智能体研究,在这三方面都面临着挑战。

训练环境不稳定。 虽有团队采用强化学习训练GUI智能体并取得成效,但这些训练系统大多未公开,且完全依赖于虚拟手机模拟器。模拟器本身极其脆弱,训练过程动辄崩溃,更无人尝试在真实的物理手机上进行训练。

评测标准不统一。 不同论文采用的提问方式、图像分辨率、坐标计算规则各异,导致报告的性能指标缺乏可比性。一个模型声称在某基准上提升2%,这究竟是实质进步,还是评测“技巧”带来的水分?很难判断。

部署落地是短板。 实验室里训练出的模型,极少能真正送到用户手中。代码往往只是开源在GitHub上,对系统兼容性、个性化支持、跨平台使用等实际问题考虑不足。

ClawGUI的诞生,正是为了系统性解决这三个层面的问题。

二、训练场:为AI搭建稳定的“练习室”

ClawGUI的第一个核心模块是ClawGUI-RL,专注于训练环节。其核心是一个高效的“环境管理器”,可以同时调度数十个虚拟手机实例并行训练。当某个实例崩溃时,系统能自动将其替换,确保了训练流程的连续性,从根本上解决了模拟器不稳定的老大难问题。

更具突破性的是,ClawGUI-RL首次支持在真实物理手机上训练。这与模拟器训练有本质区别:模拟器可直接读取系统底层数据(如数据库)来判定任务成败,而真实手机无此权限。团队的解决方案是引入一个强大的多模态AI作为“裁判”,通过观察任务完成后的最终屏幕截图来打分,无需窥探过程。

在奖励机制设计上,ClawGUI-RL采用了双层策略。基础层是简单的二元奖励(成功得1分,失败得0分)。但对于需要多步操作的任务,仅靠最终奖励,AI无法知晓哪一步出错。为此,团队引入了“过程奖励模型”(PRM),在AI每执行一步操作后,立即评估该步骤是否朝着目标前进。这就好比教练在运动员训练的每个分解动作后都给予即时反馈,而非只在最终计时。

在算法层面,系统同时支持GRPO和GiGPO两种方法。GRPO对整条操作轨迹进行整体评分,适合短任务;而GiGPO则更为精细,它将不同尝试中到达相同中间状态的操作步骤分组比较,实现更细粒度的信用分配,这对于需要数十步的复杂任务至关重要。

三、考场:让AI成绩真正可比较、可复现

训练完成后,如何客观评估AI的能力?ClawGUI-Eval模块应运而生,它是一套标准化的评测流水线。

其核心理念是将评测流程拆解为三个严格独立的阶段:推理评判计算指标。这如同一条生产线,各环节职责清晰,出了问题可单独修复,无需推倒重来。

“推理”阶段负责让模型根据题目生成预测结果,支持本地GPU运行或API远程调用,并具备断点续跑能力。“评判”阶段则将模型输出与标准答案对比,针对不同题型(如单点定位、多步操作)采用专用评判器。“计算指标”阶段则汇总结果,生成按平台、元素类型、任务类别等多维度细分的成绩报告。

该模块覆盖了ScreenSpot-Pro、UI-Vision、MMBench-GUI等6个主流评测基准,并支持Qwen3-VL、Gemini、UI-TARS等超过11个主流AI模型。为了验证其可靠性,团队用该流水线复现了各模型的官方成绩,在48组可对比数据中,46组的误差控制在2%以内或优于原成绩,复现率高达95.8%。

值得注意的是,仅有的两组复现失败,恰恰发生在那些未公开评测配置细节的模型上。这有力地说明,GUI评测的可复现性问题,根源在于细节不透明,而非评测本身不可标准化。

对于无法直接调用的闭源商业模型,团队设计了“缩放范式”的两阶段处理方法:先将高分辨率大图切割成多个瓦片分别送入模型识别,再整合结果还原坐标。这种方法无需接触模型内部,便成功复现了Gemini等模型的官方成绩。

四、出门上岗:将AI装进真实手机

前两个模块解决了“练”和“考”的问题,ClawGUI-Agent则致力于解决“用”的问题——让AI在真实手机上为用户服务。

它支持安卓、鸿蒙、iOS三大系统,并接入飞书、钉钉、微信、Telegram等超过12个主流聊天平台。用户只需在聊天软件中向AI发送指令,AI即可操控手机完成任务并反馈结果,体验如同拥有一个全天候的虚拟助理。

它提供两种控制模式:“远程控制模式”允许用户通过另一台设备间接控制目标手机;“本地控制模式”则直接在手机本地的聊天软件中运行,无需额外硬件。

在操控策略上,它采用“CLI+GUI混合控制”。CLI(命令行界面)通过程序接口直接下达系统指令,效率极高;GUI则模拟人类视觉交互,覆盖范围无死角。系统会优先尝试CLI方式,若应用未提供接口则自动切换至GUI控制,兼顾了效率与通用性。

尤为贴心的是其个性化记忆系统。AI能从与用户的互动中自动提取结构化信息(如常用应用、联系人关系、使用偏好),并以向量形式存储。当用户再次发出指令时,系统会检索相关记忆并注入上下文,让AI能理解“给我妈发消息”中的“我妈”具体指谁,或者记得用户偏好使用某个外卖平台。重复记忆会被自动合并,确保知识库精简有效。

更有趣的是,ClawGUI-Agent将评测模块也封装成了一个可调用的“技能”。研究者只需在聊天窗口中说“帮我评测Qwen3-VL在ScreenSpot-Pro上的表现”,系统便会自动完成环境检查、并行推理、评判、生成报告的全流程,并将结构化结果连同与官方数据的对比一并返回。

五、训练成果:小体量,大能量

基于这套框架,团队端到端训练出了ClawGUI-2B模型。该模型以MAI-UI-2B为基础,采用GiGPO算法,在64个并行虚拟手机环境中强化学习训练了3轮。其中,为每一步操作打分的“裁判”工作由Qwen3.5-72B大模型承担。

在MobileWorld基准的“GUI-Only”测试集(共117个真实手机任务,要求纯视觉操控)上,ClawGUI-2B取得了17.1%的成功率。这个数字需要放在语境中理解:

同参数规模的MAI-UI-2B成功率仅为11.1%。这意味着,相同的起点模型,经过ClawGUI-RL训练后,性能提升了6个百分点。

与参数量大得多的模型相比:Qwen3-VL-32B(参数量是其16倍)成绩为11.9%;UI-Venus-72B(参数量是其36倍)成绩为16.4%,仍略低于ClawGUI-2B。这表明,在GUI操控任务上,训练方法的质量可能比模型的原始规模更为关键。

当然,目前顶级的方案(如结合闭源商业大模型与专用定位模型的框架)成功率可达55.6%,但这属于另一条技术路径。

此外,对比实验清晰显示了细粒度奖励的价值:在相同设置下,使用GRPO(整体轨迹奖励)的模型成功率为14.5%,而使用GiGPO(步骤级奖励)后,成功率提升至17.1%,相对提升达17.9%。这证实了在复杂多步任务中,对每一步操作进行精细的信用分配至关重要。

结语

ClawGUI所做的工作,看似是在打磨基础设施而非创造碘伏性算法,但这恰恰是推动一个领域从实验室走向成熟应用的关键。GUI智能体领域不乏巧思与强大的模型,缺的正是这样一个能够统一训练、公平评测、并实现便捷部署的公共平台。

对于普通用户而言,这意味着什么?近年来,AI助手在对话上的能力令人惊叹,但“能聊天”与“能替你操作手机”之间仍有巨大鸿沟。ClawGUI的价值在于,它系统性地填平了这条道路上最棘手的几个工程坑,为后续研究者提供了坚实的基石。沿着这个方向,一个真正能理解你、记住你习惯、并跨应用替你处理日常琐事的AI助手,正变得愈发可期。

这项由浙江大学多个团队联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.11784。所有代码已在GitHub开源。

Q&A

Q1:ClawGUI和普通的AI手机助手(如Siri)有什么区别?

普通AI助手主要依靠调用系统或应用预先提供的API来完成任务,覆盖范围受限于接口开放程度。ClawGUI训练的GUI智能体则模拟人类“看屏操作”的方式,理论上可操控任何应用界面,无需应用专门配合。此外,ClawGUI是一套完整的研究与开发工具链,涵盖了从训练、评测到部署的全流程。

Q2:ClawGUI-2B在测试中只有17%的成功率,是否意味着表现不佳?

需要结合测试难度来看。MobileWorld的GUI-Only测试集包含117个需纯视觉完成的真实手机任务,挑战性很高。17.1%的成功率在同等规模的开源端到端模型中已处于领先地位,甚至超过了参数量大得多的某些模型。目前最高的成绩依赖于闭源商业大模型,不属于同一可比类别。

Q3:GiGPO与GRPO的区别对普通用户有实际影响吗?

直接影响在于AI完成任务的能力。GiGPO通过为每一步操作提供反馈,让AI学习得更精准,从而在相同条件下获得更高的任务成功率(相对提升约17.9%)。对用户而言,这意味着AI助手在执行任务时更少“卡壳”或“迷路”,完成任务的效率和可靠性更高。

来源:https://www.techwalker.com/2026/0421/3184675.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI语言模型纽约街头实测:哥本哈根大学研究揭示人机交互安全挑战

AI语言模型纽约街头实测:哥本哈根大学研究揭示人机交互安全挑战

这项由哥本哈根大学、IIIT兰契、ISI加尔各答、NIT安得拉邦、IGDTUW、IIT卡拉格普尔、谷歌DeepMind、谷歌以及南卡罗来纳大学AI研究所联合开展的研究,以预印本形式于2026年4月10日发布,论文编号为arXiv:2604 09746。 人工智能助手的能力日益强大,从撰写报告到规划行

时间:2026-05-15 14:06
字节跳动GRN模型革新AI绘画实现边生成边修改新方法

字节跳动GRN模型革新AI绘画实现边生成边修改新方法

在探讨AI图像与视频生成技术时,我们通常会想到扩散模型——它如同修复一张被雨水浸湿的照片,通过反复“去噪”从混沌中逐步显现清晰画面。尽管这种方法效果显著,却存在一个根本的效率瓶颈:无论生成内容的复杂程度如何,模型都需要执行固定且繁重的计算步骤,无法智能地分配算力资源。 另一条主流技术路径是自回归模型

时间:2026-05-15 14:06
斯坦福AI诊断师可自我评估短板并针对性优化

斯坦福AI诊断师可自我评估短板并针对性优化

这项由斯坦福大学主导的研究以预印本形式于2026年4月发表,论文编号为arXiv:2604 05336v1。研究提出了一个名为TRACE的系统,全称是“Turning Recurrent Agent failures into Capability-targeted training Environ

时间:2026-05-15 14:05
Meta AI新研究揭示旧数据复用如何提升40%训练效率

Meta AI新研究揭示旧数据复用如何提升40%训练效率

一项由Meta基础人工智能研究团队与纽约大学柯朗研究所联合开展的研究,于2026年4月9日以预印本形式发布,论文编号为arXiv:2604 08706v1。这项研究颠覆了AI训练领域一个长期被视为“金科玉律”的常识。 一、一个反直觉的发现:旧数据“回炉重造”,效果更佳? 在AI模型训练中,数据如同食

时间:2026-05-15 14:05
AI能否记住你?Kenotic Labs评估体系重新定义人工智能记忆边界

AI能否记住你?Kenotic Labs评估体系重新定义人工智能记忆边界

这项由Kenotic Labs开发的研究成果发表于2026年4月的第39届神经信息处理系统大会(NeurIPS 2025),论文编号为arXiv:2604 06710v1。 不知道你有没有过这样的体验:和一位朋友促膝长谈,分享了近期的压力、生活的变动,甚至一些私密的感受。可下次见面,对方却仿佛失忆了

时间:2026-05-15 14:05
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程