谷歌推出Gemini 2.5 Computer Use模型:聚焦浏览器操作与界面交互新突破

谷歌近期推出了一款名为“Gemini 2.5 计算机使用”的新型人工智能模型,该模型专注于通过浏览器与网络交互,使AI智能体能够在专为人类设计的用户界面中执行任务。这一创新旨在填补当前AI在非API依赖型系统操作中的空白,例如自动填写并提交网页表单等场景。
据介绍,该模型的核心能力源于其“视觉理解与推理”技术,能够解析用户请求并转化为具体的浏览器操作。谷歌透露,这一特性使其不仅适用于用户界面测试,还可操作那些仅面向人类用户、未开放API接口的系统。此前,谷歌已在AI Mode智能体功能和研究项目“Mariner”中验证了类似技术,例如通过AI根据食材清单自动将商品添加至购物车。
在竞争层面,谷歌此次发布恰逢OpenAI于年度开发者日推出ChatGPT新应用次日。OpenAI正持续强化其“ChatGPT智能体”功能,该功能可代理用户完成复杂任务。与此同时,Anthropic公司已于去年推出Claude AI模型的“计算机使用”版本,形成三足鼎立之势。
谷歌通过演示视频展示了新模型的实际运行效果,并特别说明视频播放速度已加速至3倍。测试数据显示,该模型在网页和移动端基准测试中表现优于现有主流方案。与竞品不同的是,谷歌明确限制模型仅在浏览器环境中运行,无法操控整个计算机系统。最新强调,当前版本“未针对桌面操作系统层级控制进行优化”,目前支持包括打开浏览器、文本输入、页面元素拖放等13种基础操作。
开发者可通过Google AI Studio和Vertex AI平台获取该模型,Browserbase平台则提供在线演示服务。用户可实时观察模型完成“玩2048游戏”或“浏览Hacker News热门话题”等任务,直观体验其与浏览器环境的交互能力。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
xAI拟融200亿美元资金,英伟达参与股权投资助力其数据中心建设
近日,科技领域传来一则重磅消息:埃隆·马斯克旗下的人工智能初创企业xAI正筹备一轮大规模融资,总金额有望达到200亿美元。此次融资由股权融资和债务融资两部分构成,其中股权融资规模约为75亿美元,债务
谷歌推出Gemini 2.5 Computer Use模型:聚焦浏览器操作与界面交互新突破
谷歌近期推出了一款名为“Gemini 2 5 计算机使用”的新型人工智能模型,该模型专注于通过浏览器与网络交互,使AI智能体能够在专为人类设计的用户界面中执行任务。这一创新旨在填补当前AI在非API
黄仁勋详述英伟达与OpenAI新合作:建立直接伙伴关系,助力AI基建
在近期一场由CNBC投资俱乐部主办的月度会议上,英伟达首席执行官黄仁勋与知名主持人吉姆·克莱默展开对话,重点阐述了公司与生成式AI领军企业OpenAI达成的战略协议。这场于纽约证券交易所举行的访谈中
从GTC到DevDay:奥特曼引爆AI算力竞赛,OpenAI如何重塑全球算力版图?
硅谷科技圈的年度盛会格局正悄然重塑:春季英伟达全球技术大会与秋季OpenAI开发者日,已成为观察人工智能产业风向的双坐标。在刚刚落幕的OpenAI开发者日上,一系列技术发布与运营数据披露,勾勒出AI
马斯克xAI或获200亿美元融资 英伟达参与股权投资 融资结构独特引关注
据内部消息人士透露,埃隆·马斯克掌舵的人工智能初创企业xAI正推进一项总额达200亿美元的融资计划,该规模较原定目标显著提升。此次融资由股权融资与债务融资两部分构成,其中股权融资约75亿美元,债务融
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















