数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

To C端GUI Agent类产品现状与趋势分析

AI热点日报时间：2026-07-05

热点解读

今天智谱正式发布了AutoGLM沉思版，PC端可以直接操控用户的浏览器——注意，这不是常规的搜索引擎爬虫，而是直接操作浏览器，去访问那些搜索引擎和合规爬虫进不去的网站。从体验来看，这或许是第一个正经面向To C场景推出的GUI Agent类产品，而且同时适配了Windows和Mac端。易用性上做得确

今天智谱正式发布了AutoGLM沉思版，PC端可以直接操控用户的浏览器——注意，这不是常规的搜索引擎爬虫，而是直接操作浏览器，去访问那些搜索引擎和合规爬虫进不去的网站。从体验来看，这或许是第一个正经面向To C场景推出的GUI Agent类产品，而且同时适配了Windows和Mac端。易用性上做得确实不错。趁这个机会，聊聊这类产品最近的新动态。

先说一句，这篇不是商单，我也没被邀请去发布会现场。所以这篇文章没有任何利益关系，就是纯技术层面的分析。

实现讨论

关于GUI Agent模型

我没有深入研究AutoGLM和UI-TARS-desktop的具体实现，不过它们大概率是拿到了网页的DOM数据，同时也可能拿取了网页截屏进行多模态处理。不过到目前为止，这类软件都是基于浏览器的，还不能对PC上任意应用进行操作。

目前有不少创业者在尝试实现类似的功能。但这类模型的核心其实取决于数据合成——某种程度上来说，它们更接近“数据即模型”的状态。这方面最大的问题是数据的缺乏，以及合成成本居高不下。

一年前我就在研究这类数据的合成，当时觉得成本几乎不现实。现在随着模型的图像理解能力增强，数据合成变得更有希望了。但我仍然认为，这不是靠少量微调数据就能搞定的事情。对于常见应用和网站的理解与适配，大概率需要在预训练或后训练阶段就加入该方向的数据进行学习。单靠外部第三方做微调，前景并不乐观。

目前来看，VLM模型还没有真正进入推理时代。它们的能力更多来源于训练阶段的能力固化。如果能在推理过程中对GUI等元素进行分析，来更好地理解应用和网页的界面，那么成功率和泛化能力应该还有很大的提升空间。但遗憾的是，我还没有在哪个VLM模型的输出思考过程中看到这方面的能力。

关于用户账号

AutoGLM采用的是使用用户本地浏览器的方式，这和OpenAI的Operator不同。好处很明显：用户不需要在另外的浏览器上重新登录账号，从网站侧检测到的概率也降低了。

目前对于GUI Agent如何登录网站账号的问题，还没有统一的解决方案，而且短期内看不到网站有动力去主动支持这些Agent。所以使用用户本地浏览器和cookie的方式，看起来是一个不错的过渡方案。

关于Long Context

海外模型在Long Context方面的支持已经相当成熟，但国内模型还有明显差距。特别是操作浏览器时会向Context中注入大量信息，进一步加大了模型处理Context的压力。

短期来看，把一些任务拆解成独立的Context去处理，只返回结果本身，可能是更优雅的方式。这样一来，独立的环节对于主流程来说就是一个tool，既可以并行执行多个请求，又能降低对主流程Context的压力。不过这样做当然会牺牲一些“agent气质”，模型Long Context能力提升之后，可能就不需要这么绕路了。

关于成本问题

目前这类GUI Agent的成本依然不低。操作步骤多是一个原因，很多环节还需要对界面图像进行处理和分析，总的推理成本仍然较高。不过相比去年，成功率提升确实带动了成本的相对下降，但模型的单位推理成本并没有明显下降。

除了推理成本，用户的等待时间和云上浏览器的占用时间也是无法忽视的硬成本。目前的方案还都比较慢，消耗的时间仍然偏多。

展望

虽然现在可用性还不够完美，但AutoGLM作为第一个正经给用户使用的To C GUI Agent产品，确实有它的首发意义。

从目前获取的信息来看，预计再过一年，这方面的模型能力会有明显提升。但到那时，它们能否很好地泛化到自己没见过的软件和网页上，仍然是个未知数。同时，使用成本会降到什么程度，也还说不准。

无论如何，智谱已经立了一个靶子——或者说OpenAI的Operator已经立了一个靶子。接下来就坐等全球其他模型厂正式下场竞争了。

考虑到这类模型的性能很大程度上取决于对常见应用数据的覆盖程度，所以国内和海外的模型能力很可能各有侧重。在国内的应用场景下，大概率很难指望海外模型。这一点，PC端如此，手机端也如此。

各种应用、网站以及App，是否要让这些GUI模型能够“用得上自己”，似乎已经变成了一个战略上的决策点。在线网站和应用可能还有别的考量，但纯端侧、无需联网的软件，让这些模型去熟悉自己，大概率是一种更理性的选择——这本质上也是一种用户培训方式。降低用户的使用成本，用户自然会更愿意用。

谈目前To C的GUI Agent类产品

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：To C端GUI Agent类产品现状与趋势分析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025040593286.html

ai 人工智能

上一篇：人工智能在医疗中的主要应用场景全面解析

下一篇：DeepSite AI辅助开发神器深度体验：实力与局限

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周OmniParser基于AI的解析工具 02 / 本周通义灵码智能编码助手助你高效编程 03 / 本周基于AI的自动化道路巡逻与资产数据收集方案 04 / 本周通义智文AI助你高效阅读全网文章 05 / 本周Applitools Eyes 基于人工智能的端到端测试平台

01 / 本月OmniParser基于AI的解析工具 02 / 本月通义灵码智能编码助手助你高效编程 03 / 本月基于AI的自动化道路巡逻与资产数据收集方案 04 / 本月通义智文AI助你高效阅读全网文章 05 / 本月Applitools Eyes 基于人工智能的端到端测试平台

热点快看

07-05 19:47OmniParser基于AI的解析工具 07-05 19:47通义灵码智能编码助手助你高效编程 07-05 19:47基于AI的自动化道路巡逻与资产数据收集方案 07-05 19:47通义智文AI助你高效阅读全网文章 07-05 19:47Applitools Eyes 基于人工智能的端到端测试平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别