中科院研发230M手机AI模型小体积如何超越70亿参数大模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

中科院研发230M手机AI模型小体积如何超越70亿参数大模型

热心网友时间：2026-05-16

转载

这项由中国科学院自动化研究所与香港科学与创新研究院联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.23941。

中科院领衔：手机上运行的AI界面操控

每天，我们打开手机、点击按钮、填写表单、滑动页面，这些看似平常的操作背后，其实藏着一个让计算机科学家头疼多年的难题：如果想让AI帮我们自动操作手机，它首先得“认识”屏幕上的每一个按钮和图标——不是靠读懂代码，而是像人类一样，通过眼睛看到界面、理解自然语言指令，然后精准地找到目标位置。这个能力，研究者称之为“GUI元素定位”，你可以把它理解为AI在手机屏幕上的“视力”和“理解力”。

问题在于，拥有这种“视力”的AI模型通常体型庞大，动辄需要数十亿个参数才能运转，就像一台专业级别的医疗扫描仪，效果虽好但体积惊人，根本塞不进你的手机。研究团队面对的核心挑战，正是如何打造一台“口袋里的医疗扫描仪”——既精准、又轻巧。他们给出的答案叫做GoClick，一个只有2.3亿个参数的小模型，却能在多个权威评测中与拥有七十亿参数的大模型一较高下，甚至在某些测试上直接超越对手。

这是怎么做到的？答案藏在两个关键决策里：选对了“身材结构”，以及在训练前认真筛选了“食谱”。

一、为什么手机上的AI“导航员”那么难造？

设想这样一个场景：一位视力障碍用户对手机说“帮我在亚马逊上搜索《孙子兵法》”。AI助手需要先理解意图，然后在屏幕上找到搜索框的具体位置，精确地“点击”它，再输入文字。这一系列动作里，最难的其实是“找到搜索框”这一步——屏幕上可能有几十个可交互的元素，搜索框可能在顶部，也可能被遮挡，而且不同的App界面设计千差万别。

人类依靠眼睛和经验可以在零点几秒内完成这个判断，但AI需要同时处理一张高分辨率的截图、理解自然语言指令，再输出精确坐标。更麻烦的是，GUI界面与日常照片差异极大：屏幕上的按钮通常非常小，可能只占整个图像面积的极小比例；同一屏幕上可能有几十个看起来相似的图标；文字密度也远高于普通照片。这些特点对AI的视觉理解能力提出了极高要求。

现有的解决方案，基本上是把大型视觉语言模型直接用于这个任务。这些模型效果不错，但参数量普遍在25亿以上，有的甚至超过180亿，部署在服务器上还好，但若要在手机本地运行则完全不现实——手机的内存和算力根本承受不住。

这个矛盾催生了GoClick这项研究。研究团队的目标很明确：打造一个能在手机上实时运行的“界面导航专家”，延迟低、精度高、体积小。

二、“瘦身”方案选错了：为什么简单缩小不管用？

直觉上，最简单的做法是把那些已经很厉害的大模型“按比例缩小”。好比把一辆豪华越野车等比例缩成玩具车，造型一样但能力也大幅缩水。研究团队确实做了这个实验：他们取来了当前流行的两款大模型——Qwen2-VL和InternVL2的小尺寸版本，用同样的训练数据对它们进行微调，期待它们在缩小后依然能胜任GUI定位任务。

结果令人失望。这两款“缩水版”大模型在GUI定位任务上的表现只能用“中规中矩”来形容，远没有达到预期。以一个关键测试集FuncPred为例，Qwen2-VL的20亿参数版本只得到了51.1分的准确率，而研究团队最终的GoClick小版本在同样测试上得到了64.4分，大版本GoClick更是达到了69.5分，全面超越了这些参数量多出数倍的对手。

原因在于，这些流行大模型在设计之初就是为了“全能”：它们要能回答问题、写文章、描述图片、做多轮对话，因此架构上选择了一种“解码器优先”的设计，本质上像是一个擅长“写作文”的大脑，需要维持大量的对话和生成能力。但GUI定位任务根本不需要这些，它只需要精准地“找到位置”并输出坐标，是一个更窄、更专的任务。把一个擅长写议论文的人，缩成一个小版本后让他当精密仪器的操作员，效果自然不尽如人意。

三、找对“身材结构”：编码器-解码器架构为何更适合小模型？

研究团队选择了一条不同的路：用一种叫做“编码器-解码器”架构的模型作为基础，具体来说是微软研究院提出的Florence-2模型。这种架构的设计逻辑，可以用一个分工明确的团队来理解——编码器负责“看图读文”，把屏幕截图和用户指令理解消化，提取出有意义的视觉和语言特征；解码器则专注于“输出坐标”，只需要把位置信息以数字形式写出来。

与那些需要维持大量文字生成能力的“解码器优先”架构相比，这种分工合作的结构把有限的参数用在了刀刃上：编码部分专心做视觉语言融合，解码部分只做一件事——精准地预测坐标，不需要对话、不需要讲故事、不需要写诗，只需要说“目标在屏幕横坐标500、纵坐标80的位置”。

学术界此前已有研究表明，在参数规模较小、任务范围相对聚焦的场景下，编码器-解码器架构通常优于解码器优先架构。GoClick的实验验证了这一结论在GUI定位任务上的适用性。面对相同的训练数据，Florence-2微调后的GoClick在几乎所有测试基准上都显著超越了参数量两倍多的Qwen2-VL和SLiME-Gemma，更大幅领先于同等参数量的InternVL-2。

在速度方面，GoClick的优势更加突出。研究团队在模拟手机设备使用条件的环境下进行了测速实验，GoClick-L的首个输出token出现时间为91.1毫秒，每个后续token的生成时间仅需8.3毫秒，而那些70亿参数的竞争对手TPOT往往高达20至30毫秒。GoClick-B版本更快，TTFT仅37.7毫秒，TPOT仅4.1毫秒，速度优势十分明显。

四、“食谱”决定水准：如何从海量数据中提炼精华？

确定了架构之后，下一个问题是：用什么数据来训练？训练AI模型就像教一个孩子，教材的质量和选择至关重要。研究团队首先大规模收集了GUI元素的“描述-位置”数据对，构建了一个总量高达1080万条样本的原始数据集。

这些数据来源非常多样：有涵盖各种网页分辨率的截图，有来自多种安卓设备模拟器的手机界面截图，有各类App操作任务的标注数据。针对每个界面元素，研究团队生成了四种不同类型的描述方式。第一种是“文本定位”——直接说出元素上显示的文字。第二种是“简短描述定位”——描述元素的外观、类别和位置。第三种是“操作意图定位”——用用户的意图来描述。第四种是“功能描述定位”——描述元素能做什么。

收集完这些原始数据后，研究团队意识到一个关键问题：数据多并不代表数据好。这就像准备一桌宴席，食材堆得再多，如果包含了过期食品和重复菜肴，最终端上桌的菜肴质量反而会下降。研究团队因此设计了一套“渐进式数据精炼”流程，分两个阶段对数据进行筛选。

第一个阶段是粗粒度筛选。研究团队发现，有两类数据对模型提升毫无帮助、甚至有害。其一是来自过时界面设计的截图——比如某个数据集包含了2011年安卓4.0时代的界面截图，与当前评测基准所使用的现代界面风格相差甚远。其二是所谓的“逆向生成任务”样本——这类样本要求模型根据元素位置反过来生成描述文字，而非根据描述找位置。实验证明这类数据不仅对定位能力没有帮助，其中的功能描述逆向生成任务甚至对模型造成了明显伤害。剔除这两类数据后，数据集从1080万条缩减到了680万条，但模型性能不降反升。

第二个阶段是细粒度调整。研究团队进一步针对六个主要数据来源，逐步降低各类任务样本的纳入比例，同时观察模型在定位评测上的表现变化。结果出现了一些出人意料的规律：来自AutoGUI、MobileViews、MultiUI和WebUI四个数据源的样本，基本上是“用得越多效果越好”；但来自AndroidControl数据源的文本定位样本，在全量纳入时反而让模型表现变差。最令人意外的是SeeClick-Web这个数据源——它提供了超过200万条简短描述定位样本，看起来是个宝库，但研究团队发现，当全量纳入时模型性能出现了“断崖式下跌”，极大可能是因为这个数据源包含过多纯文字网页，界面模式单一，全量训练后模型发生了过拟合。

经过两轮筛选，最终得到的精华核心数据集只有380万条样本——仅相当于原始数据量的35%，但训练出的模型在各项评测上的平均准确率比使用全量数据提高了整整4个百分点。

五、实战成绩：小身材，大能耐

GoClick在七个权威GUI定位评测基准上接受了全面检验，覆盖手机、网页、桌面三类界面场景，涵盖功能描述定位、简短描述定位、操作意图定位、文本定位等多种指令类型。

以其中最具挑战性的FuncPred测试为例，这个测试要求模型只根据元素的功能描述来找到目标位置，不会提示任何外观或位置信息。GoClick-L在这个测试上得到了69.5分，不仅远超同等参数量的InternVL-2和参数量两倍多的Qwen2-VL-2B，甚至超越了参数量超过自身十倍的Qwen2-VL-7B。

在更综合的ScreenSpot和ScreenSpot-v2测试上，GoClick-L分别获得78.5分和81.1分，超越了SeeClick、Ferret-UI以及4B参数的OS-ATLAS，并接近8B参数的OS-ATLAS和Aguvis。即便是只有2000万参数的GoClick-B，在VWB EG测试上也拿到了90.3分，与GoClick-L并列，在这项测试上超越了几乎所有竞争对手，包括70亿参数量级的模型。

值得一提的是，GoClick的训练数据量也远少于竞争对手：OS-ATLAS使用了1360万条数据，UGround使用了1000万条，而GoClick只用了380万条——用更少的食材做出了更好的菜，这正是数据精炼策略的价值所在。

六、装进手机与云端大脑合作：“小眼睛”如何帮助“大脑”更好地操控手机？

GoClick最令人期待的应用场景，是与大型语言模型组成“云端-设备”协作团队来完成复杂任务。研究团队设计了这样一套方案：复杂的任务规划交给运行在远程服务器上的大型专有模型，它负责“读懂”用户意图并制定操作计划；而元素定位这个高度专业化的视觉任务，则下放给安装在手机上的GoClick来完成。

这个分工逻辑清晰：大型专有模型擅长推理和规划，但定位屏幕元素并非其强项——在实验中，让GPT-4o直接输出点击坐标，准确率很低；而GoClick是一个专注于定位的专家，逻辑推理不是它的职责，但找准目标是它的拿手好戏。两者各司其职，如同侦探负责分析案情、提出方向，而现场搜证专家负责在现场精确找到关键证物。

为了验证这套方案的效果，研究团队在四个GUI操作任务基准上进行了全面测试。这些测试评估的核心指标是“步骤成功率”：AI在操作手机的每一步中，点击、输入、滑动等动作有多少比例与人类标注的正确操作完全吻合。

在Android-in-The-Wild测试上，使用GPT-4o单独既做规划又做定位时，整体步骤成功率只有27.2%；引入GoClick专门负责定位后，这个数字跃升至48.9%，点击动作的准确率更从29.9%飙升至59.7%，几乎翻了一番。对比另一种流行的方案——“标记集”提示策略，GPT-4o配合这种方法的成功率只有42.1%，仍然低于GoClick方案的48.9%。

在更难的GUIAct-Web测试上，同样是GPT-4o配合GoClick的组合，成功率从18.2%提升到50.5%，远超GPT-4o配合标记集方案的42.3%。Gemini-2-Flash配合GoClick在Android-in-The-Wild上的整体成功率达到47.2%，同样大幅优于单独使用Gemini或配合标记集的方案。

研究还发现，用“操作意图”来引导GoClick定位略微优于用“功能描述”来引导，前者在大多数测试上的得分略高。研究团队认为，这是因为功能描述是一种相对间接的描述方式，要求模型通过更多推断才能确定目标，难度更高。

七、这个研究还没解决什么？

研究团队对GoClick的局限性保持坦诚。其一，GoClick的架构优势是专门针对GUI定位任务优化的，编码器-解码器架构在这个窄任务上的优势，不一定能迁移到更复杂的任务，比如多步骤规划、思维链推理等，这些场景下大型解码器模型的优势可能会回归。

其二，数据精炼流程目前仍有一定的经验性成分，实验中调整数据比例时需要手动观察性能变化，缺乏更加系统化的理论支撑。如果用不同的随机种子来抽取数据子集，结果可能存在细微差异。研究团队也指出，未来可以借助元学习方法或博弈论中的“沙普利值”技术来更精确地量化每条样本的训练价值，但计算代价巨大。

其三，实验评测是在L20 GPU上进行的，而非在真实手机硬件上。目前还没有成熟的VLM嵌入式设备部署框架，研究团队的实测速度数据代表了模拟条件下的结果，真实手机的内存限制、能耗约束和系统级优化可能带来与测试条件不同的实际表现。

其四，GoClick的训练数据存在“时效性”问题。研究发现，使用2011年安卓4.0时代的截图数据会损害模型在现代界面上的表现，这意味着随着界面设计风格的演化，GoClick可能需要定期使用新数据重新训练，才能保持竞争力。

说到底，GoClick这项研究回答了一个看似矛盾的问题：能不能在极小的体积内，塞进足够好的“界面理解力”？答案是肯定的，但前提是既要选对架构，又要精心打磨数据。编码器-解码器的分工设计让有限的参数发挥了最大效用，而渐进式数据精炼则去除了那些表面上看起来有用、实际上是噪音的训练样本。两个思路缺一不可，缺了哪个都会让最终的模型差一大截。

这项研究对于AI助手走进日常生活有实质意义：当你的手机AI助手能够真正“看懂”屏幕、精确操作每一个按钮，而不依赖服务器的高延迟处理，很多需要实时响应的场景才真正变得可行——比如为视障用户实时导航界面，比如在地铁上低延迟地自动处理日程提醒，比如在没有良好网络的环境下仍然流畅运行的智能助手。GoClick提供的不仅是一个小模型，更是一套关于“如何在资源受限环境下做好专项AI任务”的方法论。

完整论文可通过arXiv编号2604.23941查阅。一个值得延伸思考的问题是：当AI模型同时兼顾“轻量”和“专业”时，哪些日常任务会最先受益？答案可能比你想象的更丰富。

Q&A

Q1：GoClick为什么选择编码器-解码器架构，而不是像ChatGPT那样的解码器架构？

GUI定位任务的核心是“看图找位置”，输出的只是一组坐标，并不需要生成长篇文字或进行多轮对话。编码器-解码器架构中，编码器专门负责理解图像和文字，解码器只负责输出坐标，分工明确、参数利用率高。而像ChatGPT那样的解码器架构需要维持大量文字生成能力，在参数规模缩小后，这部分能力的“成本”反而拖累了定位精度。实验证明，同等参数量下编码器-解码器架构的定位准确率显著更高。

Q2：渐进式数据精炼（PDR）为什么能用更少的数据得到更好的效果？

核心原因是“去除了有害数据”。数据量多并不代表质量高，研究发现过时界面截图和逆向描述生成类任务不仅无益，还会干扰模型学习正确的定位能力。同时，某些来源的数据过于单一重复，全量纳入会让模型“偏科”，遇到新场景就失效。筛掉这些干扰项后，模型能更专注地从高质量样本中学习，用380万条精华数据超越了使用1080万条原始数据的结果。

Q3：GoClick和Set-of-Marks（SoM）提示方法相比有什么优势？

SoM方法需要先用一个检测模型把屏幕上所有元素标注出来、打上编号，再让大型语言模型从这些候选项中选择目标，整个流程依赖大型专有模型完成最终判断。GoClick直接输出目标坐标，不需要额外的检测模型预处理，也不依赖大模型做最终决策。实验数据显示，GPT-4o配合SoM在Android-in-The-Wild上整体成功率为42.1%，而GPT-4o配合GoClick达到48.9%，差距明显，而且GoClick可以直接在手机本地运行，延迟更低。

来源:https://www.techwalker.com/2026/0506/3185860.shtml

上一篇：中国科学院与香港理工大学团队让AI看懂电脑屏幕实现智能软件交互

下一篇：港大与京东探索院联手优化视频AI四步提升实用体验