Computer Use Preview - 谷歌开源的AI浏览器自动化工具
Computer Use Preview是什么
简单来说,Computer Use Preview 就是谷歌官方开源的一款“AI浏览器操盘手”。它背后的核心引擎是 Gemini 模型的视觉能力,其工作逻辑非常贴近我们人类的操作习惯:先截图看清页面,再由AI分析该干什么,最后执行操作。这套“所见即所得”的模式,让它彻底摆脱了对传统自动化工具所依赖的固定元素定位(比如XPath、CSS选择器)的束缚。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这意味着什么?这意味着它能处理许多传统脚本望而却步的复杂任务,比如在不同网站间搬运数据,或者完成那些依赖视觉判断的交互。有测试为证:在衡量任务完成度的基准测试中,它的得分达到了69%,这个表现已经超过了市面上不少同类工具。
它深度集成了 Gemini API 和 Vertex AI,所以任务理解能力相当强悍。无论是做网页测试、数据采集,还是帮你搞定日常的重复性网页操作,它都能胜任。对于想尝试浏览器自动化又不想碰代码的朋友来说,这无疑是个理想的“零代码”入门神器。
Computer Use Preview的主要功能
它的功能设计,完全围绕着“让机器更像人”这个目标展开:
- 自然语言驱动:你只需要用大白话描述任务,比如“去京东搜一下最新的智能手机并列出前三名”,剩下的规划与执行链路,AI会自动帮你搞定。编写复杂脚本?那已经是过去式了。
- 智能交互:导航、点击、填表、滚动……这些基础操作自不在话下。更关键的是,得益于Gemini模型,它能理解页面的动态变化。页面弹了个窗?元素加载慢了点?它都能适应,交互逻辑相当灵活。
- 双环境支持:它提供了两种“驾驶舱”,适应不同场景:
- Playwright(本地运行):在本地直接调用Chrome浏览器,适合处理涉及本地文件或对隐私要求高的任务。
- Browserbase(云环境):连接云端的浏览器实例,适合需要稳定云资源、长时运行或进行分布式操作的项目。
- 调试友好:执行过程“有图有真相”。支持实时截图和鼠标轨迹高亮,你可以像看回放一样监控每一步操作,哪里出了问题一目了然,调试和优化效率大大提升。
- AI 大模型集成:这不是简单的接口调用,而是与Gemini API和Vertex AI的深度集成。这让它具备了强大的语义理解和上下文推理能力,面对复杂的多步指令和动态多变的网页内容,也能从容应对。
如何使用Computer Use Preview
上手这套工具并不复杂,跟着下面几步走,你很快就能看到效果:
- 准备工作:首先,访问它的GitHub项目页面,把源码下载到本地并解压。
- 设置运行环境:确保你的电脑安装了Python(建议3.8及以上版本)。创建一个独立的虚拟环境并激活它,这是保证项目依赖纯净的好习惯。
- 安装依赖:进入项目文件夹,运行安装命令,把所需的Python包以及Playwright浏览器一并装好。
- 配置 API 密钥:去Google Cloud平台申请一个Gemini API密钥,然后将其设置为系统的环境变量。这是工具获得“大脑”的关键一步。
- 运行工具:激动人心的时刻到了。现在,直接用自然语言指令启动它,比如输入:“访问百度,搜索‘今日天气’并打开第一个结果。”接下来,就看它的表演了。
- 可选配置:你可以根据需求,指定使用本地Playwright还是云端的Browserbase环境,并调整超时时间、模型版本等参数,以获取最佳性能。
Computer Use Preview的项目地址
- GitHub仓库:所有的源代码、详细文档和更新日志都在这里:https://github.com/google-gemini/computer-use-preview
- 在线体验地址:如果你想快速尝鲜,无需配置本地环境,可以直接通过 Browserbase 提供的在线服务进行体验。
Computer Use Preview的应用场景
这么一款工具,到底能用在哪?它的应用场景其实非常接地气:
- Web 自动化测试:让自动化测试变得更“智能”。它可以快速验证按钮点击、表单提交、流程跳转等功能是否正常,尤其擅长处理那些元素ID不固定或动态加载的页面。
- 数据采集:告别手动复制粘贴。无论是监测商品价格、爬取新闻列表,还是收集公开的行业数据,它都能像一名不知疲倦的助手,自动帮你完成抓取。
- 跨网站数据搬运:这才是它真正发挥威力的地方。比如,把某个论坛的热帖自动同步到你的内容管理系统,或者将电商平台的订单信息搬运到内部报表中,它能打通不同平台间的数据流。
- 日常任务自动化:那些每天都要重复的网页操作,比如登录系统查报表、定时到某个网站签到、批量下载文件等,完全可以交给它来定时执行,为你省下大量时间和精力。
- 视觉交互任务:基于图像识别,它能完成更“精细”的活。例如,在一個设计工具网站上,识别并拖拽特定的图标组件;或者对网页上的图片进行自动分类。这些任务,传统自动化工具很难实现。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
如何在RPA中配置浏览器和RPA工具
在RPA中配置浏览器与工具的通用指南 要想让RPA机器人流畅地完成网页自动化任务,第一步,也是最关键的一步,就是做好环境和工具的连接配置。这事儿听起来技术,其实拆解开来,按部就班地操作,过程远比想象中清晰。今天,咱们就一起把整个流程走一遍。 选择RPA工具 万事开头难,而好的开头是成功的一半。自动化
什么是大模型语言(LLM, Large Language
大模型语言:技术浪潮、核心优势与未来挑战 这几年,人工智能的发展势头确实有点猛。尤其在我们自然语言处理领域,大型语言模型的出现,堪称一次“范式转移”。它不再是实验室里的远眺,而已经真切地参与到各行各业之中。今天,我们就来系统梳理一下这股浪潮的脉络,看看它究竟强在哪里,用在哪里,以及未来还要克服哪些难
传统电商店铺如何智能化升级?
传统电商店铺实现智能化升级的路径 当前,传统电商店铺的智能化升级已成必然趋势,但具体该如何着手?关键不在于盲目引入技术,而在于遵循一套清晰的、循序渐进的实施路径。 一、明确升级目标 第一步,也是首要前提,就是设定清晰的升级目标。你的店铺智能化到底是为了什么?是旨在“提升销售额”,还是“精细化客户服务
RPA和人工智能有什么区别
RPA与人工智能:深入解析两者的本质区别 在数字化转型的浪潮中,RPA和人工智能常常被同时提及,有时甚至被混为一谈。这其实是个不小的误解。今天,我们就来厘清这两者的核心差异,看看它们究竟有何不同。 核心功能:是“执行手臂”还是“智能大脑”? 理解二者区别,首先得从功能定位上看。RPA,全称机器人流程
混合式业务流程的优势
混合式业务流程 谈及业务流程管理,现在有一种备受关注的新模式正悄然兴起,那就是混合式业务流程。简单来说,它是在传统业务流程管理的坚实基础上,巧妙地融合了现代化的数字技术。这么做的核心理念很明确:既不完全抛弃经过时间验证的优秀传统做法,又能积极拥抱技术创新,最终目标是构建出一个更高效、更灵活、也更智能
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

