AI手机未来走向:模型、系统与生态的角逐
手机可能是首个真正被 AI 接管的终端。全球有数十亿智能手机用户,每天生产着海量的数据。这些数据成为 AI 的燃料,反过来,AI 让手机更加智能。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
当苹果还在持续评估 Siri 的底层供应商之时,安卓手机厂商已经摩拳擦掌,在能部署 AI 功能的地方都塞上了 AI。无论是字节跳动与手机厂商中兴在操作系统层面合作推出的豆包 AI 手机工程样机,还是智谱开源能够自动化操作手机界面的 AI Agent 模型 AutoGLM,都引起了市场对 AI 手机或手机 Agent 的高度关注。
按照业界的预期,Agent 将非常深刻地改变在智能终端上的人机交互逻辑。从主动式的 AI 响应对话,到“次抛型”的 APP,千人千面的终端服务将成为可能。
无论是 AI 手机还是在手机中开源 Agent 模型,对于 Agent 应用与终端的普及、提高行业智能体体验的底线都有正向的影响。开源模型也在一定程度上缓解了终端厂商的数据安全焦虑,并能够更好地融合进厂商原有的 Agent 助手系统,而非必须“另起炉灶”。与此同时,互联网应用也获得了一个强大的基础,用于开发应用内的自主操控智能体应用。
在当下的实践中,手机应用主要分为娱乐、查询和工作三类。相比点外卖、买咖啡这些日常小事,AI 手机里的 Agent 更大的价值可能在于提升工作效率——帮用户快速搞定那些原本复杂耗时的任务,比如深度信息搜索、全网比价购物、个人数据查询管理等。这些事情以前可能要折腾半天,现在 Agent 能帮你几分钟就解决。
例如,Agent 可以通过整理手机中的聊天记录、照片视频、购物历史等数据,帮你回忆某段时间的生活轨迹或重要事件。
然而,现在移动终端面临的核心问题是:缺乏统一的 Agent 生态系统,无法有效打通不同应用之间的功能调用。加上行业内尚未就 Agent 生态标准形成统一共识,这些因素共同导致 AI 手机很难通过应用工具调用的方式实现真正的智能操作。
因此,为了让手机 Agent 能够通用地使用不同应用,目前只能“曲线救国”——通过图形用户界面(GUI,Graphical User Interface)的方式,模拟人手操作来控制手机。操作逻辑其实就是多模态理解:先看懂手机当前的屏幕截图,然后像人一样去点击相应的 APP 和按钮,最后完成具体任务。
这种方式适用性很强,理论上能操作各种 APP。但问题是移动设备的算力和存储有限,面临两难选择:7B 以下的小模型处理复杂 GUI 任务力不从心;而 7B 以上的大模型虽然功能强大,但体积太大、成本太高,在手机上跑起来很困难。
AI 手机的路线之争:云端还是端侧?
目前,AI 手机(包括手机 Agent)主要分为三条技术路线:纯云端模型、纯端侧模型和端云协同模型。
纯云端模型多用于移动端(例如 AI 手机等)需要多个步骤和任务部署的复杂任务。另外,在多 APP 操作的场景下,由于任务相对较难,需要较强的推理能力和多模态理解,也会更多地使用云端模型。
尽管云端模型整体性能效果比端侧模型强,但问题在于数据存放在云端,面临包括照片、视频、聊天信息、邮件等在内的数据隐私问题。此外,高成本和带宽也是不容忽视的关键问题。因此,在一些涉及个人数据、隐私性较强的场景则需要纯端侧模型。对于端云协同框架,则适用于云端和端侧能力差别不显著的场景。
一个关键的问题付出水面:在手机这样算力、能耗和隐私都极度受限的终端上,是否真的存在一种现实解法——既不过度依赖云端,又能跑得动 GUI Agent?
近期,香港大学黄超教授团队给出了一个平衡成本和性能的新方案,我们从这个案例中或许可以看到一些启发。研究团队开源了一个叫 OpenPhone 的项目(Mobile Agentic Foundation Models)[1]。在该项目中,不仅开源了一个纯端侧 3B 尺寸的小模型,还提供了一套端云协同的方案,这样既能在隐私敏感的场景下用本地模型处理,又能在隐私不敏感的复杂任务上调用云端大模型来保证完成质量。
考虑手机的能耗限制和实际部署的可能性,研究人员基于开源的 Qwen2.5-VL-3B 模型和自动化生成的 GUI 数据,通过监督微调和强化学习策略实现了与通用的 7B 模型相当的性能。

(来源:arXiv)
OpenPhone 还引入了一种类似于思维链(CoT,Chain of Thought)的长推理机制。该机制的“巧妙之处”在于,将包括屏幕状态、任务进度和推理过程等在内的每一步信息,从存储原始高分辨率截图压缩成精简的文本描述,有效地降低了历史上下文的存储负担,从而实现了 Agent 的长期反思以及决策能力。
在 138 项手机任务的测试中,OpenPhone 在性能接近 9B 模型的情况下,速度提升了 4 倍。“从端侧测试结果来看,训练数据对于 GUI Agent 的表现至关重要,OpenPhone 提供了一套可以最大化人工标记数据价值的数据生成管道,利用有限的数据来尽可能增强 GUI Agent 的能力。”黄超告诉 DeepTech。
该研究证明,尽管小模型在泛化能力上不如大模型,但其在手机 Agent 场景中,可通过长推理等方式激发小模型的执行任务能力,其在移动端的潜力同样不容忽视。

图丨 OpenPhone 的总体框架(来源:arXiv)
黄超解释道:“在 OpenPhone 项目中,端云协同框架不仅可节约模型本身的 token 开销,还能降低成本。但是,如果模型云端效果显著好于端侧,则依然会采用云端模型来进行操作。”
研究团队坦言,该框架在实际部署过程中,可能会面临大量工程性的优化问题。近期,他们也在和企业界沟通探讨未来合作的方式。“尽管目前 AI 手机的大部分解决方案依赖于云端,但业界对端侧突破仍寄予厚望。从我们与企业的交流来看,他们更倾向于在端侧解决,云端可能只是当前的权宜之计。”黄超表示。
可以看到,端云协同是在当下平衡隐私和效果(成功率)的一个比较可行的方案。如果不考虑能耗和终端部署情况,端侧处理最为理想,并能帮设备厂商节约云端算力。未来,端云协同仍会是一个比较理想的范式。
业内人士告诉 DeepTech,端云协同长期来看是最佳选择,不过短期内受制于端侧芯片算力和内存限制,端上不太可能完整运行所有 AI 手机需要的模型功能,仍需要较长的时间和行业内的软硬协同发展。
因此,比较理想的状态自然是简单任务能路由到端侧直接运行,复杂任务路由到云端执行,但是实现这样的目标需要先跑通 AI 手机生态实现意图理解的数据飞轮,模型才可能将来做到这一目标。
AI 手机真正的难题:谁来开放操作系统的权限?
回到一个 AI 手机绕不过的问题:包括社交软件、操作软件或信息查询软件在内的主流 APP,会禁止手机 Agent 的访问权限。
从智能手机的角度来看,如果用户通过手机 Agent 来操作所有 APP,即通过 GUI 方式进行访问,那么 APP 有可能丧失流量入口,直接导致 APP 赖以为生的广告价值归零。
有专家指出,现在的问题在于,整个移动端的 AI 手机整体生态会往哪里走,可能取决于手机厂商的战略制定。总体来看,解决这个问题有两种方案:一是 AI 手机厂商有一套自己的生态,二是未来可能也会涉及到流量入口的合作。
在 DeepTech 与几位业内人士的交流中,普遍认为 AI 手机的生态并非仅依赖某几家企业或技术进步的问题,而是整个行业共同面临的生态问题,包括技术提供方(例如 AI 助手能力提供方、操作系统厂商、硬件供应链模型企业)、应用与服务方(例如端硬件、互联网应用)、用户、开发者和监管机构等。
对于手机操作系统本身的权限开放,业内人士指出,需要谨慎但坚定的推动,不宜操之过急但也万不可故步自封。其类似自动驾驶上路的发展,可以考虑在满足审计安全要求下,通过试点硬件产品和应用场景开放合作,逐步推动相关场景落地和教育,并且同步建设起更完整的生态机制。
谈及在操作系统层面兼顾支持高效模型调度、有效管理本地安全权限以及保障用户隐私策略的策略,一位业内人士告诉 DeepTech,这是一个较复杂的问题,短期来看需要先建立 Agent 与用户、系统和应用之间的互信授权机制,同时建立起关于 Agent 的审计与安全栅栏,明确智能体“上路”的水平要求和安全底线。长期来看,该方向的发展极大程度取决于 AI 和大模型本身的发展进度,需要审时度势地考虑实际发展情况进行决策。
此外还需要看到的是,无论是云端还是端侧模型,AI 手机任务的成功率目前尚不及人类水平,未来还需要在准确率和可靠性方面同步提升。并且,纯 GUI Agent 整体响应速度还有很大的提升空间。
黄超认为,未来模型上下文协议(MCP,Model Context Protocol)生态辅助 GUI 作为解决方案,有望提升手机 Agent 的整体响应速度和准确率。“就像智能手机需要 APP Store,AI 手机也需要类似的平台,让整个社区都活跃起来贡献高质量的 MCP,再去调用它们。从生态角度来看,APP 只有保持开放状态并放出自己的 MCP,构建一套更加完善高效的合作模式,才能守住自己的流量,否则流量也有可能会被其他类似 APP 抢走。未来应用可能会呈现出两种交互模式:一种是面向智能体的交互,另一种是面向人类的交互。”
可见,AI 手机真正广泛应用的标志,不在于模型多强,而是不同 APP 应用厂商如何共建手机智能体的环境。当然,这同样需要整个生态系统共同推动技术的发展和落地。
参考资料:
1.https://arxiv.org/abs/2510.22009v1
排版:刘雅坤
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
蓝思科技2025成绩单:净利增超40亿,核心业务板块透视
蓝思科技近日公布的2025年度财务报告显示,公司全年实现营业收入744 1亿元,较上年增长6 46%;归属于母公司股东的净利润达40 18亿元,同比增长10 87%,基本每股收益为0 79元。这一业
搭载宁徳电池与法士特电机,乘龙H5新能源牵引车助跑绿色物流
在物流行业向绿色、高效转型的浪潮中,东风柳汽乘龙推出的H5新能源牵引车凭借创新设计与技术突破,成为中短途物流运输领域的焦点。这款车型以轻量化车身、高效三电系统及智能化配置为核心,为物流企业提供了兼顾
美股三大指数涨跌不一:纳指微跌0.73%,房利美与房地美飙升
格隆汇3月31日|特朗普称与伊朗的谈判取得进展,但同时警告若霍尔木兹海峡未恢复通行,美方可能攻击伊朗能源基础设施。美股三大指数收盘涨跌不一,道指涨0 11%,纳指跌0 73%,标普500指数跌0 3
希迪智驾2025年报:营收增长超115%至超13亿港元
希迪智驾科技股份有限公司(股份代码:3881)正式登陆港交所后,交出了首份年度成绩单。根据其发布的截至2025年12月31日的年报显示,公司全年营收达8 85亿元,同比大幅增长115 8%,这一增速
小米SU7女性安全与电动尾翼详解,第224集答网友问
小米汽车近日通过最新渠道发布了最新一期“答网友问”内容,针对新一代SU7的核心功能与安全设计进行详细解读,涵盖女性安全开发、通透模式应用及电动尾翼技术三大热点问题,引发消费者广泛关注。在安全开发领域
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

