数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

vivo万字综述揭秘大模型手机自动化

AI热点日报时间：2026-06-29

热点解读

导言你想象过吗？手机能像钢铁侠的智能管家贾维斯一样，一句话就顺畅搞定所有复杂任务？最近，国内外手机厂商和AI公司扎堆发布了手机AI智能体产品，让这个曾经只存在于科幻电影里的场景，一步步走向现实。 vivo就是其中典型的领跑者。在十月的开发者大会上，他们推出了手机智能体产品“PhoneGPT”。这个

导言

你想象过吗？手机能像钢铁侠的智能管家贾维斯一样，一句话就顺畅搞定所有复杂任务？最近，国内外手机厂商和AI公司扎堆发布了手机AI智能体产品，让这个曾经只存在于科幻电影里的场景，一步步走向现实。

vivo就是其中典型的领跑者。在十月的开发者大会上，他们推出了手机智能体产品“PhoneGPT”。这个产品能干的事可不少——帮你一句话点咖啡、订外卖，甚至还能一句话找到最近的私房菜馆，再通过AI直接打电话预定包厢。网友们直接给它封了个“i人救星”的称号。

图1 vivo PhoneGPT订座（蓝心小V对话或小V主界面下滑探索-智能体广场体验）

有意思的是，各大厂商像提前商量好了一样，都瞄准了“一句话订咖啡”这个场景。这让人不禁想起当年乔布斯用初代iPhone订星巴克的经典画面。坊间甚至调侃说，今年秋天第一杯咖啡，是手机智能体帮你点的。

图2 vivo PhoneGPT订咖啡（蓝心小V对话或小V主界面下滑探索-智能体广场体验）

行业发展之快肉眼可见——手机AI智能体的论文几乎呈井喷式增长，技术路线迭代速度惊人。但一个尴尬的现实是：这个领域还缺一份系统性的综述。这次vivo AI Lab联合香港中文大学MMLab等团队，推出了一篇长达48页、覆盖200余篇文献的综述论文，对基于大模型的手机自动操作智能体技术做了全面深入的研究。希望给学界和产业界提供一份靠谱的参考，一起把这个方向往前推一推。

论文标题：LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
论文地址：https://www.preprints.org/manuscript/202501.0413/v1

1.1 研究背景

手机GUI自动化的终极目标，是通过编程模拟人类与手机界面的交互，来完成复杂任务。传统的方法如自动化测试、快捷指令和机器人流程自动化（RPA），虽然各有各的用处，但普遍面临通用性差、灵活性不足、维护成本高、意图理解能力弱、屏幕感知能力有限等问题。

大语言模型（LLM）的出现，给手机自动化带来了全新的范式。基于LLM的手机GUI智能体能够理解自然语言指令，感知界面并执行任务，有望实现真正智能、自适应的自动化操作。

1.2 研究目的

系统总结LLM驱动的手机GUI智能体的研究成果，包括框架、模型、数据集和评估方法。
分析LLM在手机自动化中的应用现状，探讨其优势和挑战。
指出未来研究方向，为研究人员和从业者提供参考。

1.3 主要贡献

图3 大模型驱动的手机GUI智能体文献分类

对LLM驱动的手机GUI智能体进行全面系统的综述，涵盖发展轨迹、核心技术和应用场景。
提出多视角的方法论框架，包括框架设计、模型选择与训练、数据集与评估指标。
深入分析LLM赋能手机自动化的原因，探讨其在自然语言理解、推理和决策等方面的优势。
介绍和评估了最新进展、数据集和基准，为研究提供资源支持。
识别出关键挑战并提出未来研究的新视角，比如数据集多样性、设备端部署效率和安全问题。

2. 手机自动化的发展历程

2.1 LLM时代之前的手机自动化

自动化测试：从随机测试到基于模型的测试、基于学习的测试，再到强化学习测试，一直在进化。但测试覆盖范围、效率、成本和模型泛化能力依然是老大难问题。
快捷指令：像Tasker和iOS Shortcuts这类工具，通过预定义规则或触发条件实现自动化，范围和灵活性都非常有限。
机器人流程自动化（RPA）：在手机上模拟人类执行重复性任务，但处理动态界面和脚本更新时常常力不从心。

2.2 传统方法的挑战

通用性有限：传统方法完全是“为某个应用、某个界面”量身定做的，换个应用或碰到动态环境就抓瞎，缺乏灵活性和上下文适应能力。
维护成本高：编写和维护自动化脚本需要专业知识，应用一更新脚本就得跟着改，费时费力。门槛高，普通用户根本用不了。
意图理解能力差：基于规则和脚本的系统只能干预设好的活，根本理解不了复杂的自然语言指令，用户真正想要的东西它完全体会不到。
屏幕GUI感知能力弱：传统的识别方法很难准确搞定不同应用里各种各样的GUI元素，面对动态内容和复杂界面更是束手无策。

2.3 LLM推动手机自动化

图4 大模型驱动的手机GUI智能体发展里程碑

LLM在手机自动化中的应用一直在迭代——从自然语言理解到多模态感知，再到推理决策能力，一步步把原来不可能完成的任务变成了可能。

那么，LLM到底是怎么解决传统挑战的？

上下文语义理解：从海量文本语料库中学习，能理解复杂的语言结构和领域知识，准确解析多步骤命令。
屏幕GUI多模态感知：利用多模态感知能力，把文本和视觉信息整合在一起，准确定位屏幕元素并进行交互。
推理和决策制定：基于语言、视觉上下文和历史交互，进行复杂推理、多步骤规划和上下文感知适应，任务执行成功率自然就上去了。

2.4 新兴商业应用

各家厂商的新产品已经摆上台面了：

Apple Intelligence（2024年6月）：把AI能力集成到iOS、iPadOS和macOS里，通过智能总结、优先级通知和上下文感知回复，提升通信、生产力和专注功能，同时保障隐私安全。
vivo PhoneGPT（2024年10月）：OriginOS 5中的个人AI助手，能自主拆解需求、主动规划路径、实时识别环境并做动态反馈决策。点咖啡、订外卖、找私房菜馆打电话订包厢，一句话搞定。
Honor YOYO Agent（2024年10月）：适应用户习惯和复杂指令，通过语音或文本命令自动化多步骤任务，比如购物比价、自动填表、定制饮品、会议静音等，用户体验直接拉满。
Anthropic Claude Computer Use（2024年10月）：Claude 3.5 Sonnet模型的Computer Use功能，让AI智能体能像人一样操作计算机——观察屏幕、移动光标、点击按钮、输入文本，人机交互的范式正在改变。
Zhipu.AI AutoGLM（2024年10月）：通过简单命令模拟人类操作智能手机，点赞评论、购物、订票、点餐都不在话下。它能导航界面、解读视觉线索并完成任务，展示了LLM驱动的手机自动化在商业应用中的潜力。

3. 手机GUI智能体框架

3.1 基本框架

图5 大模型驱动的手机GUI智能体基础框架

一个典型的手机GUI智能体框架，可以拆成三个核心模块：

感知模块
- UI信息：包括UI树（比如DroidBot-GPT把它转成自然语言句子）、截图（AutoUI就是通过截图做GUI控制的）、Set-of-Marks（用来标注截图，MM-Na vigator就用这个）、Icon & OCR增强（Mobile-Agent-v2集成了OCR和图标数据）。
- 手机状态：比如键盘状态和位置数据，用来做上下文感知的操作。
大脑模块
- 存储：包括记忆（记录历史屏幕任务相关内容）和知识（来自预训练知识、领域特定训练和知识注入）。
- 决策制定：包括规划（比如Mobile-Agent-v2的规划智能体生成任务进度）、推理（可以利用Chain-of-thought增强推理能力）和反思（比如Mobile-Agent-v2的反思智能体评估决策并调整）。
行动模块：执行触摸交互、手势操作、输入文本、系统操作和媒体控制等动作，确保决策最终落地到设备上的实际操作。

3.2 多智能体框架

图6 多智能体框架分类

多智能体框架主要有两种模式：

角色协调多智能体框架（Role-Coordinated Multi-Agent Framework）：比如MMAC-Copilot，多个功能各异的智能体协作，包括规划、决策、记忆管理、反思和工具调用，通过预定义的工作流程一起完成任务。
基于场景的任务执行框架（Scenario-Based Task Execution Framework）：比如MobileExperts，根据具体任务场景动态分配任务给专家智能体。每个智能体都可能有针对特定场景（购物、编码、导航等）的专长，任务成功率和效率自然更高。

3.3 计划-然后-行动框架（Plan-Then-Act Framework）

SeeAct、UGround、LiMAC和ClickAgent等工作都证明了这种框架的有效性。核心思路是先生成动作描述，再根据这个描述去定位要操作的控件位置。这样做的好处是：任务执行更清晰、更可靠、更有适应性，而且规划和UI定位两个模块可以独立优化。

4. 用于手机自动化的大语言模型

图7 模型分类

4.1 提示工程（Prompt Engineering）

图8 提示词设计

提示工程是LLM应用中最直接的方式，主要分为两类：

纯文本提示词（Text-Based Prompt）：单文本模态的LLM，通过解释UI树信息来做决策。代表作品有DroidBot-GPT、Enabling Conversational等。这种方法在不同应用中已有一定进展，但明显的问题是——对屏幕全局信息的理解利用不足。
多模态提示词（Multimodal Prompt）：多模态大语言模型（MLLM）同时整合视觉和文本信息，通过截图和补充UI信息做决策。具体又有两种输出方式：基于SoM输出索引（如MM-Na vigator、AppAgent）和直接输出坐标（如VisionTasker、Mobile-Agent系列）。这种方法在准确性和鲁棒性上有了明显提升，但UI定位的准确性依然是个挑战。

4.2 基于训练的方法（Training-Based Methods）

GUI任务专用模型架构（Task Specific Model Architectures）
- 通用目的：Auto-GUI、CogAgent、ScreenAI、CoCo-Agent和MobileFlow等模型，都旨在增强直接GUI交互、高分辨率视觉识别、全面环境感知和条件行动预测能力，从而应对不同应用和界面下的任务。

图9 不同的UI理解任务

特定领域：这些模型聚焦于屏幕理解任务，包括UI定位（如LVG、UI-Hawk）、UI引用（如Ferret-UI、UI-Hawk）和屏幕问答（如ScreenAI、WebVLN、UI-Hawk），通过特定技术提升智能体在复杂用户界面中的交互能力。

接下来是训练方面的主流方法：

监督微调（Supervised Fine-Tuning）
- 通用目的：在特定任务数据集上微调，增强模型在GUI定位、OCR、跨应用导航和效率等方面的能力。SeeClick、GUICourse、GUI Odyssey和TinyClick都是这个方向的代表。
- 特定领域：针对特定任务进行微调，比如ReALM解决参考分辨率问题，IconDesc用于生成UI图标替代文本，特定领域的性能提升很明显。
强化学习（Reinforcement Learning）
- 手机智能体：DigiRL、DistRL和AutoGLM通过强化学习训练智能体适应动态手机环境，决策能力和成功率都有提升。AutoGLM还实现了跨平台应用。
- 网页智能体：ETO、Agent Q和AutoWebGLM用强化学习让智能体适应复杂网页环境，通过学习交互和改进决策，在网页导航和操作任务中表现更出色。
- Windows智能体：ScreenAgent通过强化学习让智能体在Windows环境中与真实计算机屏幕交互，完成多步骤任务，展示了在桌面GUI自动化中的潜力。

5. 数据集和基准

5.1 相关数据集

表1 数据集

早期数据集：PixelHelp将自然语言指令映射到UI动作；UIBert通过预训练提升UI理解；Meta-GUI收集对话与GUI操作痕迹；UGIF解决多语言UI指令跟随问题；MoTIF引入了任务可行性和不确定性概念。
大规模数据集：Android In The Wild（AITW）和Android In The Zoo（AITZ）提供了大量设备交互数据；GUI Odyssey用于跨应用导航训练和评估；AndroidControl专门研究数据规模对智能体性能的影响；AMEX通过详细注释增强智能体对UI元素的理解。

5.2 基准

表2 Benchmarks

评估方法（Evaluation Pipelines）：MobileEnv提供通用训练和评估平台；AndroidArena评估LLM智能体在复杂Android环境中的性能；LlamaTouch实现移动UI任务的设备端执行和评估；B-MoCA评估不同配置下的移动设备控制智能体；AndroidWorld提供动态可参数化任务环境；MobileAgentBench为移动LLM智能体提供高效基准；AUITestAgent实现自动GUI测试；AndroidLab提供系统框架和基准。
评估指标（Evaluation Metrics）
- 任务完成指标：任务完成率、子目标成功率、端到端任务完成率，用来评估智能体完成任务的有效性。
- 行动执行质量指标：行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性，衡量智能体行动的精确性和逻辑性。
- 资源利用和效率指标：资源消耗、步骤效率、反向冗余比，评估智能体资源利用效率。
- 任务理解和推理指标：Oracle准确性、点准确性、推理准确性、关键信息挖掘能力，考察智能体的理解和推理能力。
- 格式和合规性指标：验证智能体输出是否符合格式约束。
- 完成意识和反思指标：评估智能体对任务边界的识别和学习能力。
- 评估准确性和可靠性指标：确保评估过程的一致性和可靠性。
- 奖励和整体性能指标：任务奖励、平均奖励，综合评估智能体性能。

6. 挑战与未来方向

6.1 数据集开发与微调可扩展性

现有数据集的多样性明显不足。未来需要开发大规模、多模态的数据集，涵盖更广泛的应用场景、用户行为、语言和设备类型。
微调在域外性能方面的挑战也不容忽视。探索混合训练方法、无监督学习、迁移学习和辅助任务，是减少对大规模数据依赖的关键路径。

6.2 轻量级和高效的设备端部署

移动设备在计算和内存方面的限制是硬约束。模型剪枝、量化和高效transformer架构等方法（比如Octopus v2和Lightweight Neural App Control的创新）是目前的主流思路。
利用专门硬件翻跟斗和边缘计算解决方案，可以减少对云的依赖，增强隐私保护并提高响应速度。

6.3 用户中心适应：交互与个性化

提高智能体对用户意图的理解能力，减少手动干预，支持语音命令、手势和持续学习用户反馈。
实现智能体的个性化适应，通过集成多种学习技术，使其快速适应新任务和用户特定上下文，不需要大量重新训练。

6.4 模型定位、推理等能力提升

改进语言指令到UI元素的精确映射，集成先进视觉模型、大规模注释和有效融合技术，提升多模态定位能力。
增强智能体在复杂场景中的推理、长程规划和适应性，开发新架构、内存机制和推理算法，超越当前LLM的能力上限。

6.5 标准化评估基准

建立统一的基准，覆盖多种任务、应用类型和交互模态，提供标准化的指标、场景和评估协议，促进公平比较和全面评估。

6.6 确保可靠性和安全性

开发强大的安全协议、错误处理技术和隐私保护方法，防范对抗攻击、数据泄露和意外行为，保护用户信息和信任。
实施持续监测和验证过程，实时检测和缓解风险，确保智能体行为可预测、尊重隐私，并在各种条件下保持稳定性能。

7. 总结

这篇综述系统梳理了LLM驱动的手机自动化技术发展，涵盖了多种框架（单智能体、多智能体、计划-然后-行动）、模型方法（提示工程、基于训练）和数据集/基准。
分析了LLM在提升手机自动化效率、智能性和适应性方面的核心作用，也诚实地指出了当前面临的挑战和未来的发展方向。
特别强调了标准化基准和评估指标对推动领域发展的重要性——只有统一的标尺，才能公平比较不同模型和方法，让整个领域健康前进。

展望未来，随着模型架构不断改进、设备端推理持续优化、多模态数据深度融合，基于大模型的手机GUI智能体有望在复杂任务中实现更高的自主性，融合更多AI范式，最终为用户提供无缝、个性化、安全的使用体验。这个方向，值得持续押注。

手机「自动驾驶」大揭秘！vivo万字综述探讨大模型手机自动化

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：vivo万字综述揭秘大模型手机自动化要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025010893420.html

ai 人工智能

上一篇：架构师必备Nvidia分享的LLM推理优化实用技巧全解析

下一篇：国产AI眼镜1799元现货搭载阿里定制大模型

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。