vivo万字综述揭秘大模型手机自动化
导言 你想象过吗?手机能像钢铁侠的智能管家贾维斯一样,一句话就顺畅搞定所有复杂任务?最近,国内外手机厂商和AI公司扎堆发布了手机AI智能体产品,让这个曾经只存在于科幻电影里的场景,一步步走向现实。 vivo就是其中典型的领跑者。在十月的开发者大会上,他们推出了手机智能体产品“PhoneGPT”。这个
导言
你想象过吗?手机能像钢铁侠的智能管家贾维斯一样,一句话就顺畅搞定所有复杂任务?最近,国内外手机厂商和AI公司扎堆发布了手机AI智能体产品,让这个曾经只存在于科幻电影里的场景,一步步走向现实。
vivo就是其中典型的领跑者。在十月的开发者大会上,他们推出了手机智能体产品“PhoneGPT”。这个产品能干的事可不少——帮你一句话点咖啡、订外卖,甚至还能一句话找到最近的私房菜馆,再通过AI直接打电话预定包厢。网友们直接给它封了个“i人救星”的称号。
图1 vivo PhoneGPT订座(蓝心小V对话或小V主界面下滑探索-智能体广场体验)
有意思的是,各大厂商像提前商量好了一样,都瞄准了“一句话订咖啡”这个场景。这让人不禁想起当年乔布斯用初代iPhone订星巴克的经典画面。坊间甚至调侃说,今年秋天第一杯咖啡,是手机智能体帮你点的。
图2 vivo PhoneGPT订咖啡(蓝心小V对话或小V主界面下滑探索-智能体广场体验)
行业发展之快肉眼可见——手机AI智能体的论文几乎呈井喷式增长,技术路线迭代速度惊人。但一个尴尬的现实是:这个领域还缺一份系统性的综述。这次vivo AI Lab联合香港中文大学MMLab等团队,推出了一篇长达48页、覆盖200余篇文献的综述论文,对基于大模型的手机自动操作智能体技术做了全面深入的研究。希望给学界和产业界提供一份靠谱的参考,一起把这个方向往前推一推。
- 论文标题:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
- 论文地址:https://www.preprints.org/manuscript/202501.0413/v1
1.1 研究背景
手机GUI自动化的终极目标,是通过编程模拟人类与手机界面的交互,来完成复杂任务。传统的方法如自动化测试、快捷指令和机器人流程自动化(RPA),虽然各有各的用处,但普遍面临通用性差、灵活性不足、维护成本高、意图理解能力弱、屏幕感知能力有限等问题。
大语言模型(LLM)的出现,给手机自动化带来了全新的范式。基于LLM的手机GUI智能体能够理解自然语言指令,感知界面并执行任务,有望实现真正智能、自适应的自动化操作。
1.2 研究目的
- 系统总结LLM驱动的手机GUI智能体的研究成果,包括框架、模型、数据集和评估方法。
- 分析LLM在手机自动化中的应用现状,探讨其优势和挑战。
- 指出未来研究方向,为研究人员和从业者提供参考。
1.3 主要贡献
图3 大模型驱动的手机GUI智能体文献分类
- 对LLM驱动的手机GUI智能体进行全面系统的综述,涵盖发展轨迹、核心技术和应用场景。
- 提出多视角的方法论框架,包括框架设计、模型选择与训练、数据集与评估指标。
- 深入分析LLM赋能手机自动化的原因,探讨其在自然语言理解、推理和决策等方面的优势。
- 介绍和评估了最新进展、数据集和基准,为研究提供资源支持。
- 识别出关键挑战并提出未来研究的新视角,比如数据集多样性、设备端部署效率和安全问题。
2. 手机自动化的发展历程
2.1 LLM时代之前的手机自动化
- 自动化测试:从随机测试到基于模型的测试、基于学习的测试,再到强化学习测试,一直在进化。但测试覆盖范围、效率、成本和模型泛化能力依然是老大难问题。
- 快捷指令:像Tasker和iOS Shortcuts这类工具,通过预定义规则或触发条件实现自动化,范围和灵活性都非常有限。
- 机器人流程自动化(RPA):在手机上模拟人类执行重复性任务,但处理动态界面和脚本更新时常常力不从心。
2.2 传统方法的挑战
- 通用性有限:传统方法完全是“为某个应用、某个界面”量身定做的,换个应用或碰到动态环境就抓瞎,缺乏灵活性和上下文适应能力。
- 维护成本高:编写和维护自动化脚本需要专业知识,应用一更新脚本就得跟着改,费时费力。门槛高,普通用户根本用不了。
- 意图理解能力差:基于规则和脚本的系统只能干预设好的活,根本理解不了复杂的自然语言指令,用户真正想要的东西它完全体会不到。
- 屏幕GUI感知能力弱:传统的识别方法很难准确搞定不同应用里各种各样的GUI元素,面对动态内容和复杂界面更是束手无策。
2.3 LLM推动手机自动化
图4 大模型驱动的手机GUI智能体发展里程碑
LLM在手机自动化中的应用一直在迭代——从自然语言理解到多模态感知,再到推理决策能力,一步步把原来不可能完成的任务变成了可能。
那么,LLM到底是怎么解决传统挑战的?
- 上下文语义理解:从海量文本语料库中学习,能理解复杂的语言结构和领域知识,准确解析多步骤命令。
- 屏幕GUI多模态感知:利用多模态感知能力,把文本和视觉信息整合在一起,准确定位屏幕元素并进行交互。
- 推理和决策制定:基于语言、视觉上下文和历史交互,进行复杂推理、多步骤规划和上下文感知适应,任务执行成功率自然就上去了。
2.4 新兴商业应用
各家厂商的新产品已经摆上台面了:
- Apple Intelligence(2024年6月):把AI能力集成到iOS、iPadOS和macOS里,通过智能总结、优先级通知和上下文感知回复,提升通信、生产力和专注功能,同时保障隐私安全。
- vivo PhoneGPT(2024年10月):OriginOS 5中的个人AI助手,能自主拆解需求、主动规划路径、实时识别环境并做动态反馈决策。点咖啡、订外卖、找私房菜馆打电话订包厢,一句话搞定。
- Honor YOYO Agent(2024年10月):适应用户习惯和复杂指令,通过语音或文本命令自动化多步骤任务,比如购物比价、自动填表、定制饮品、会议静音等,用户体验直接拉满。
- Anthropic Claude Computer Use(2024年10月):Claude 3.5 Sonnet模型的Computer Use功能,让AI智能体能像人一样操作计算机——观察屏幕、移动光标、点击按钮、输入文本,人机交互的范式正在改变。
- Zhipu.AI AutoGLM(2024年10月):通过简单命令模拟人类操作智能手机,点赞评论、购物、订票、点餐都不在话下。它能导航界面、解读视觉线索并完成任务,展示了LLM驱动的手机自动化在商业应用中的潜力。
3. 手机GUI智能体框架
3.1 基本框架
图5 大模型驱动的手机GUI智能体基础框架
一个典型的手机GUI智能体框架,可以拆成三个核心模块:
- 感知模块
- UI信息:包括UI树(比如DroidBot-GPT把它转成自然语言句子)、截图(AutoUI就是通过截图做GUI控制的)、Set-of-Marks(用来标注截图,MM-Na vigator就用这个)、Icon & OCR增强(Mobile-Agent-v2集成了OCR和图标数据)。
- 手机状态:比如键盘状态和位置数据,用来做上下文感知的操作。
- 大脑模块
- 存储:包括记忆(记录历史屏幕任务相关内容)和知识(来自预训练知识、领域特定训练和知识注入)。
- 决策制定:包括规划(比如Mobile-Agent-v2的规划智能体生成任务进度)、推理(可以利用Chain-of-thought增强推理能力)和反思(比如Mobile-Agent-v2的反思智能体评估决策并调整)。
- 行动模块:执行触摸交互、手势操作、输入文本、系统操作和媒体控制等动作,确保决策最终落地到设备上的实际操作。
3.2 多智能体框架
图6 多智能体框架分类
多智能体框架主要有两种模式:
- 角色协调多智能体框架(Role-Coordinated Multi-Agent Framework):比如MMAC-Copilot,多个功能各异的智能体协作,包括规划、决策、记忆管理、反思和工具调用,通过预定义的工作流程一起完成任务。
- 基于场景的任务执行框架(Scenario-Based Task Execution Framework):比如MobileExperts,根据具体任务场景动态分配任务给专家智能体。每个智能体都可能有针对特定场景(购物、编码、导航等)的专长,任务成功率和效率自然更高。
3.3 计划-然后-行动框架(Plan-Then-Act Framework)
SeeAct、UGround、LiMAC和ClickAgent等工作都证明了这种框架的有效性。核心思路是先生成动作描述,再根据这个描述去定位要操作的控件位置。这样做的好处是:任务执行更清晰、更可靠、更有适应性,而且规划和UI定位两个模块可以独立优化。
4. 用于手机自动化的大语言模型
图7 模型分类
4.1 提示工程(Prompt Engineering)
图8 提示词设计
提示工程是LLM应用中最直接的方式,主要分为两类:
- 纯文本提示词(Text-Based Prompt):单文本模态的LLM,通过解释UI树信息来做决策。代表作品有DroidBot-GPT、Enabling Conversational等。这种方法在不同应用中已有一定进展,但明显的问题是——对屏幕全局信息的理解利用不足。
- 多模态提示词(Multimodal Prompt):多模态大语言模型(MLLM)同时整合视觉和文本信息,通过截图和补充UI信息做决策。具体又有两种输出方式:基于SoM输出索引(如MM-Na vigator、AppAgent)和直接输出坐标(如VisionTasker、Mobile-Agent系列)。这种方法在准确性和鲁棒性上有了明显提升,但UI定位的准确性依然是个挑战。
4.2 基于训练的方法(Training-Based Methods)
- GUI任务专用模型架构(Task Specific Model Architectures)
- 通用目的:Auto-GUI、CogAgent、ScreenAI、CoCo-Agent和MobileFlow等模型,都旨在增强直接GUI交互、高分辨率视觉识别、全面环境感知和条件行动预测能力,从而应对不同应用和界面下的任务。
图9 不同的UI理解任务
- 特定领域:这些模型聚焦于屏幕理解任务,包括UI定位(如LVG、UI-Hawk)、UI引用(如Ferret-UI、UI-Hawk)和屏幕问答(如ScreenAI、WebVLN、UI-Hawk),通过特定技术提升智能体在复杂用户界面中的交互能力。
接下来是训练方面的主流方法:
- 监督微调(Supervised Fine-Tuning)
- 通用目的:在特定任务数据集上微调,增强模型在GUI定位、OCR、跨应用导航和效率等方面的能力。SeeClick、GUICourse、GUI Odyssey和TinyClick都是这个方向的代表。
- 特定领域:针对特定任务进行微调,比如ReALM解决参考分辨率问题,IconDesc用于生成UI图标替代文本,特定领域的性能提升很明显。
- 强化学习(Reinforcement Learning)
- 手机智能体:DigiRL、DistRL和AutoGLM通过强化学习训练智能体适应动态手机环境,决策能力和成功率都有提升。AutoGLM还实现了跨平台应用。
- 网页智能体:ETO、Agent Q和AutoWebGLM用强化学习让智能体适应复杂网页环境,通过学习交互和改进决策,在网页导航和操作任务中表现更出色。
- Windows智能体:ScreenAgent通过强化学习让智能体在Windows环境中与真实计算机屏幕交互,完成多步骤任务,展示了在桌面GUI自动化中的潜力。
5. 数据集和基准
5.1 相关数据集
表1 数据集
- 早期数据集:PixelHelp将自然语言指令映射到UI动作;UIBert通过预训练提升UI理解;Meta-GUI收集对话与GUI操作痕迹;UGIF解决多语言UI指令跟随问题;MoTIF引入了任务可行性和不确定性概念。
- 大规模数据集:Android In The Wild(AITW)和Android In The Zoo(AITZ)提供了大量设备交互数据;GUI Odyssey用于跨应用导航训练和评估;AndroidControl专门研究数据规模对智能体性能的影响;AMEX通过详细注释增强智能体对UI元素的理解。
5.2 基准
表2 Benchmarks
- 评估方法(Evaluation Pipelines):MobileEnv提供通用训练和评估平台;AndroidArena评估LLM智能体在复杂Android环境中的性能;LlamaTouch实现移动UI任务的设备端执行和评估;B-MoCA评估不同配置下的移动设备控制智能体;AndroidWorld提供动态可参数化任务环境;MobileAgentBench为移动LLM智能体提供高效基准;AUITestAgent实现自动GUI测试;AndroidLab提供系统框架和基准。
- 评估指标(Evaluation Metrics)
- 任务完成指标:任务完成率、子目标成功率、端到端任务完成率,用来评估智能体完成任务的有效性。
- 行动执行质量指标:行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性,衡量智能体行动的精确性和逻辑性。
- 资源利用和效率指标:资源消耗、步骤效率、反向冗余比,评估智能体资源利用效率。
- 任务理解和推理指标:Oracle准确性、点准确性、推理准确性、关键信息挖掘能力,考察智能体的理解和推理能力。
- 格式和合规性指标:验证智能体输出是否符合格式约束。
- 完成意识和反思指标:评估智能体对任务边界的识别和学习能力。
- 评估准确性和可靠性指标:确保评估过程的一致性和可靠性。
- 奖励和整体性能指标:任务奖励、平均奖励,综合评估智能体性能。
6. 挑战与未来方向
6.1 数据集开发与微调可扩展性
- 现有数据集的多样性明显不足。未来需要开发大规模、多模态的数据集,涵盖更广泛的应用场景、用户行为、语言和设备类型。
- 微调在域外性能方面的挑战也不容忽视。探索混合训练方法、无监督学习、迁移学习和辅助任务,是减少对大规模数据依赖的关键路径。
6.2 轻量级和高效的设备端部署
- 移动设备在计算和内存方面的限制是硬约束。模型剪枝、量化和高效transformer架构等方法(比如Octopus v2和Lightweight Neural App Control的创新)是目前的主流思路。
- 利用专门硬件翻跟斗和边缘计算解决方案,可以减少对云的依赖,增强隐私保护并提高响应速度。
6.3 用户中心适应:交互与个性化
- 提高智能体对用户意图的理解能力,减少手动干预,支持语音命令、手势和持续学习用户反馈。
- 实现智能体的个性化适应,通过集成多种学习技术,使其快速适应新任务和用户特定上下文,不需要大量重新训练。
6.4 模型定位、推理等能力提升
- 改进语言指令到UI元素的精确映射,集成先进视觉模型、大规模注释和有效融合技术,提升多模态定位能力。
- 增强智能体在复杂场景中的推理、长程规划和适应性,开发新架构、内存机制和推理算法,超越当前LLM的能力上限。
6.5 标准化评估基准
- 建立统一的基准,覆盖多种任务、应用类型和交互模态,提供标准化的指标、场景和评估协议,促进公平比较和全面评估。
6.6 确保可靠性和安全性
- 开发强大的安全协议、错误处理技术和隐私保护方法,防范对抗攻击、数据泄露和意外行为,保护用户信息和信任。
- 实施持续监测和验证过程,实时检测和缓解风险,确保智能体行为可预测、尊重隐私,并在各种条件下保持稳定性能。
7. 总结
- 这篇综述系统梳理了LLM驱动的手机自动化技术发展,涵盖了多种框架(单智能体、多智能体、计划-然后-行动)、模型方法(提示工程、基于训练)和数据集/基准。
- 分析了LLM在提升手机自动化效率、智能性和适应性方面的核心作用,也诚实地指出了当前面临的挑战和未来的发展方向。
- 特别强调了标准化基准和评估指标对推动领域发展的重要性——只有统一的标尺,才能公平比较不同模型和方法,让整个领域健康前进。
展望未来,随着模型架构不断改进、设备端推理持续优化、多模态数据深度融合,基于大模型的手机GUI智能体有望在复杂任务中实现更高的自主性,融合更多AI范式,最终为用户提供无缝、个性化、安全的使用体验。这个方向,值得持续押注。

你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:vivo万字综述揭秘大模型手机自动化要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
