面包屑图标 当前位置: 首页
AI资讯
热点详情

To C端GUI Agent类产品现状与趋势分析

AI热点日报
AI热点日报时间:2026-07-05
热点解读

今天智谱正式发布了AutoGLM沉思版,PC端可以直接操控用户的浏览器——注意,这不是常规的搜索引擎爬虫,而是直接操作浏览器,去访问那些搜索引擎和合规爬虫进不去的网站。从体验来看,这或许是第一个正经面向To C场景推出的GUI Agent类产品,而且同时适配了Windows和Mac端。易用性上做得确

今天智谱正式发布了AutoGLM沉思版,PC端可以直接操控用户的浏览器——注意,这不是常规的搜索引擎爬虫,而是直接操作浏览器,去访问那些搜索引擎和合规爬虫进不去的网站。从体验来看,这或许是第一个正经面向To C场景推出的GUI Agent类产品,而且同时适配了Windows和Mac端。易用性上做得确实不错。趁这个机会,聊聊这类产品最近的新动态。

先说一句,这篇不是商单,我也没被邀请去发布会现场。所以这篇文章没有任何利益关系,就是纯技术层面的分析。

同类产品

要说同类产品,字节的UI-TARS-desktop其实更早出现,但它目前只有Mac版,而且观感上更像一个学术原型。和AutoGLM PC版相比,使用体验的差异不在技术效果本身,而在于开发团队在“让各种用户都能用上”这件事上花了多少心思。所以这其实不是一个技术效果的标准,而是产品体验的标准。

另一方面,传统RPA类软件也在向AI方向转型。比如通过一段prompt请求直接创建一次性的RPA workflow,再自动执行,体验上和这类产品也有相似之处。只不过这种AI RPA更多服务于辅助操作、自动操作的场景,并不是针对DeepResearch这类深度调研需求的。

另外,我也听到一些To B团队的方案也具备类似功能,不过那是另一条路了。

智谱AutoGLM沉思版的使用体验

不少用户可能会把它和OpenAI的DeepResearch(ODR)放在一起比较。但从实际体验来看,完全指望不上。与其说它像ODR,不如说它更接近ChatGPT的Operator功能。它的核心优势在于直接操作浏览器,访问那些搜索引擎或ODR的爬虫无法触及的网站。

从对模型本身的观察来看,它的智能程度还无法和ODR的o3相提并论。对于已经用惯了其他DeepResearch类产品的用户来说,它更像一个简易的一次性AI RPA工具。所以不要对它的DeepResearch功能抱太高期望。但如果你调研的信息源高度依赖小红书、京东、知乎这类网站,那么它可能是更适配的工具。

操作上,它需要安装Chrome插件,运行时会独占一个浏览器窗口,并在其中打开多个标签页。好消息是它不会影响同一个浏览器打开的其他窗口,你可以把那个窗口扔到后台运行。但有个细节需要留意:当需要用户登录或其他交互时,提示信息只会出现在那个浏览器窗口中,AutoGLM应用本身不会弹出任何提示。

实现讨论

关于GUI Agent模型

我没有深入研究AutoGLM和UI-TARS-desktop的具体实现,不过它们大概率是拿到了网页的DOM数据,同时也可能拿取了网页截屏进行多模态处理。不过到目前为止,这类软件都是基于浏览器的,还不能对PC上任意应用进行操作。

目前有不少创业者在尝试实现类似的功能。但这类模型的核心其实取决于数据合成——某种程度上来说,它们更接近“数据即模型”的状态。这方面最大的问题是数据的缺乏,以及合成成本居高不下。

一年前我就在研究这类数据的合成,当时觉得成本几乎不现实。现在随着模型的图像理解能力增强,数据合成变得更有希望了。但我仍然认为,这不是靠少量微调数据就能搞定的事情。对于常见应用和网站的理解与适配,大概率需要在预训练或后训练阶段就加入该方向的数据进行学习。单靠外部第三方做微调,前景并不乐观。

目前来看,VLM模型还没有真正进入推理时代。它们的能力更多来源于训练阶段的能力固化。如果能在推理过程中对GUI等元素进行分析,来更好地理解应用和网页的界面,那么成功率和泛化能力应该还有很大的提升空间。但遗憾的是,我还没有在哪个VLM模型的输出思考过程中看到这方面的能力。

关于用户账号

AutoGLM采用的是使用用户本地浏览器的方式,这和OpenAI的Operator不同。好处很明显:用户不需要在另外的浏览器上重新登录账号,从网站侧检测到的概率也降低了。

目前对于GUI Agent如何登录网站账号的问题,还没有统一的解决方案,而且短期内看不到网站有动力去主动支持这些Agent。所以使用用户本地浏览器和cookie的方式,看起来是一个不错的过渡方案。

关于Long Context

海外模型在Long Context方面的支持已经相当成熟,但国内模型还有明显差距。特别是操作浏览器时会向Context中注入大量信息,进一步加大了模型处理Context的压力。

短期来看,把一些任务拆解成独立的Context去处理,只返回结果本身,可能是更优雅的方式。这样一来,独立的环节对于主流程来说就是一个tool,既可以并行执行多个请求,又能降低对主流程Context的压力。不过这样做当然会牺牲一些“agent气质”,模型Long Context能力提升之后,可能就不需要这么绕路了。

关于成本问题

目前这类GUI Agent的成本依然不低。操作步骤多是一个原因,很多环节还需要对界面图像进行处理和分析,总的推理成本仍然较高。不过相比去年,成功率提升确实带动了成本的相对下降,但模型的单位推理成本并没有明显下降。

除了推理成本,用户的等待时间和云上浏览器的占用时间也是无法忽视的硬成本。目前的方案还都比较慢,消耗的时间仍然偏多。

展望

虽然现在可用性还不够完美,但AutoGLM作为第一个正经给用户使用的To C GUI Agent产品,确实有它的首发意义。

从目前获取的信息来看,预计再过一年,这方面的模型能力会有明显提升。但到那时,它们能否很好地泛化到自己没见过的软件和网页上,仍然是个未知数。同时,使用成本会降到什么程度,也还说不准。

无论如何,智谱已经立了一个靶子——或者说OpenAI的Operator已经立了一个靶子。接下来就坐等全球其他模型厂正式下场竞争了。

考虑到这类模型的性能很大程度上取决于对常见应用数据的覆盖程度,所以国内和海外的模型能力很可能各有侧重。在国内的应用场景下,大概率很难指望海外模型。这一点,PC端如此,手机端也如此。

各种应用、网站以及App,是否要让这些GUI模型能够“用得上自己”,似乎已经变成了一个战略上的决策点。在线网站和应用可能还有别的考量,但纯端侧、无需联网的软件,让这些模型去熟悉自己,大概率是一种更理性的选择——这本质上也是一种用户培训方式。降低用户的使用成本,用户自然会更愿意用。

谈目前To C的GUI Agent类产品

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:To C端GUI Agent类产品现状与趋势分析要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025040593286.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 19:47
OmniParser基于AI的解析工具

OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。

AI热点2026-07-05 19:47
通义灵码智能编码助手助你高效编程

通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。

AI热点2026-07-05 19:47
基于AI的自动化道路巡逻与资产数据收集方案

基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。

AI热点2026-07-05 19:47
通义智文AI助你高效阅读全网文章

阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。

延伸阅读