当前位置: 首页
业界动态
OpenClaw Peekaboo v3正式发布 新增手眼功能一日三更

OpenClaw Peekaboo v3正式发布 新增手眼功能一日三更

热心网友 时间:2026-05-11
转载

OpenClaw的专属Computer Use工具Peekaboo v3正式回归了,而且一回来就进入了高频更新模式。这补上了OpenClaw生态里最缺的那一环:让AI不仅能回复消息,更能真正“看见”屏幕、“动手”操作真实的桌面环境。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

可以说,OpenClaw终于要长出“眼睛”和“手”了。

过去几个月,OpenClaw的热度经历了一轮典型的周期:从概念引爆时的沸腾,到逐渐落地后的平稳。当项目跑起来、用户开始上手后,社区的讨论焦点很自然地从一个问题转向了另一个。大家不再问“这是什么”,而是开始追问“它还能做什么”。

于是,一个被暂时搁置的老问题重新浮出水面:AI能接收指令、调用工具,但它的能力边界终究要触及真实世界。桌面上的按钮、菜单、弹窗、输入框,才是绝大多数实际工作的“最后一公里”。如果一个智能体(Agent)只能在聊天框里给出建议,那就像坐在副驾驶上指路的人——嘴上说得头头是道,手却始终碰不到方向盘。

Peekaboo就是在这样的背景下回归的。它的名字本身就很有趣,“躲猫猫”恰如其分地描述了自动化面对桌面环境时的常态:按钮藏在弹窗里,菜单躲在系统栏中,窗口一动坐标全变,焦点一跑输入落空。人类可以凭直觉和经验即时修正,而AI则需要一套更可靠、更结构化的“眼睛”和“手”来应对。Peekaboo要补上的,正是这套关键的能力。

从停更到一日三更

Peekaboo的v3.0.0-beta 3版本自去年年末发布后,曾沉寂了一段时间。那时,项目的主要维护者Peter将精力转向了更宏大的OpenClaw项目。这完全可以理解,OpenClaw本身就像一张需要精心编织的大网,要对接各种消息平台、构建网关、处理本地运行、支撑Agent调度,还要确保普通用户能顺利安装和稳定使用。

于是,Peekaboo暂时退居幕后。但变化发生在最近两周。先是v3.0.0-beta 4版本出来试水,紧接着在前天,正式版v3.0.0发布。正式版落地后,更新节奏骤然加快,甚至出现了一天之内连续发布v3.1.0、v3.1.1、v3.1.2三个版本的情况。

这种更新密度通常只有两种可能:要么是出现了重大Bug,维护者正在紧急“救火”;要么是方向终于对齐,积累已久的功能开始集中释放。从目前的情况看,Peekaboo更接近后者。过去几个月,OpenClaw已经搭好了渠道、网关和Agent调度的基础框架。现在,是时候补上那门最重要的“实践课”了。

Peekaboo到底在补什么

对于普通用户而言,可以把Peekaboo理解为一套面向macOS的、为AI赋能的自动化工具集。它的核心能力包括截图、识别窗口、读取UI元素、定位按钮,并能执行点击、打字、滚动、切换应用、操作菜单等一系列动作。

传统自动化脚本最怕环境变化。按钮位置稍微一换,窗口被遮挡一下,或者突然弹出一个对话框,脚本就可能像踩空楼梯一样,瞬间“宕机”进入错误分支。对于Agent来说,这个问题更复杂,因为它需要“边看、边想、边操作”,任何一步识别错误、点击失误或等待超时,都可能导致后续步骤全盘出错。

Peekaboo的价值,就在于将杂乱的桌面环境,转化为Agent能够理解和操作的“结构化工作场域”。它不仅仅是截一张图丢给模型看,更重要的是把图片中的控件、窗口、文本、按钮之间的层级和关系整理出来,形成一套可追踪、可复盘、可持续操作的“现场记录”。AI“看到”的不再是一片混沌的像素,而是一张带有明确坐标和语义的“桌面地图”。

这就好比给一个熟读菜谱的厨师配齐了明亮的厨房、顺手的砧板和锅铲。没有这些,厨艺永远停留在理论阶段;有了这些,才有可能真正开火做出佳肴。

为什么现在才变得关键

Peekaboo并非横空出世的新事物,其初版早在去年6月就已上线。问题在于,当时的模型能力尚未完全到位。视觉模型或许能“看图”,但未必能稳定理解复杂的图形界面布局和控件关系;“计算机使用”(Computer-Use)能力则常常显得生疏,动作大、心里虚,偶尔还会出现令人啼笑皆非的操作。

最近的变化在于,模型的视觉理解能力和计算机操作能力双双跨过了一个临界点。单项的进步看起来可能只是多识别一个图标、点击更准一点、多理解一步逻辑,但当这些进步叠加起来时,整体体验就会发生质变。Agent不再仅仅是实验室里偶尔成功的演示,而是开始接近能够可持续、可靠地跑完一个完整流程的“工具”状态。

正是在这个阶段,底层自动化工具的价值被急剧放大。模型再聪明,也需要稳定、可靠的输入和执行环境。没有Peekaboo这样的“桥梁”,AI对桌面的理解就容易停留在“截图问答”的层面——它能描述屏幕上有什么,却无法可靠地完成下一步的具体操作。Peekaboo所做的,正是把“看见”和“动手”这两个环节无缝地连接起来。

OpenClaw为什么需要它

OpenClaw最初打动人的地方,在于它将Agent能力嵌入了各种日常的消息渠道。用户可以从Telegram、Slack、iMessage、WhatsApp等最熟悉的入口直接发起任务。这个设计精准地捕捉到了一个现实痛点:人们已经懒得为每一个AI功能单独打开一个新网页,也不愿在不同工具之间来回搬运任务上下文。最顺手的入口,往往就是那个一直在用的聊天窗口。

然而,聊天窗口终究只是入口。真正的工作场景,常常发生在电脑里的各种应用和网页中。无论是处理一个网站后台、检查一个本地软件、运行一个模拟器、填写一张复杂表单,还是点击某个配置项、查看一张报错截图,都需要与真实的图形界面交互。

OpenClaw可以把任务从聊天窗口接进来,Agent也可以规划出执行步骤,但如果没有一个能直接操作屏幕的本地执行层,它最终只能把步骤清单发回给用户,让人自己动手。这就形成了一个尴尬的局面:用户叫来了一个“助手”,结果“助手”只是递回一张“待办事项清单”。

Peekaboo的接入,正在改变OpenClaw的角色。它不再仅仅是一个多渠道消息网关或Agent调度台,而是有机会演进为一个能在用户本机环境里真正“办事”的智能系统。用一句话概括:OpenClaw负责“谁来找我”、“要做什么”、“交给哪个Agent处理”;而Peekaboo则负责“屏幕上现在有什么”、“目标按钮在哪里”、“这一下具体该怎么操作”。

开发工具,潜力巨大

社区里已经出现了颇具启发性的用例。有人演示了如何利用Peekaboo,在浏览器中驱动远程的iOS模拟器进行应用探索。

流程大致是:先让Peekaboo分析一张移动应用(如Little Vault)的启动页截图,识别出其中的Logo、标题、标语、“创建保险库”主按钮、登录入口以及右上角的语言选择器等元素。随后,系统将这个屏幕状态注册下来,点击“Create Your Vault”按钮,等待界面跳转,再次截图,并基于新的屏幕状态继续探索。

这段演示的有趣之处,不在于单纯的“AI看懂了一张图”,而在于看懂之后的一系列连贯动作:注册屏幕状态、选择操作目标、执行点击、等待反馈、根据新状态决定下一步。这其中的每一步都可能出错,而每一步也都可以被清晰地记录和复盘。这正是Agent从“玩具”迈向“工具”的关键分界线。Peekaboo使得这些动作变得可观察、可复盘、可延续。对于OpenClaw而言,这等于在远程指令与本地执行之间,铺设了一条坚实可靠的轨道。

Peter忙着更新些什么

翻看最近几天的更新日志,内容似乎有些工程上的“琐碎”:调整模型目录、完善工具模式(schema)、优化打包产物、规范版本标记、修正捕获路径、改进守护进程(daemon)调度策略等等。

这些术语放在发布公告里可能不够“吸睛”,但它们恰恰是决定一个Agent产品能否真正稳定跑起来的“地基”。AI工具最怕遇到一种场景:演示时行云流水,一旦用户自己安装,各种权限问题、路径错误、模型加载失败、窗口捕获异常、输入法冲突、操作延迟等问题便接踵而至。最终用户只能无奈地得出结论:“未来”确实来了,只是还没轮到自己的电脑。

Peekaboo近期的连续更新,修补的正是这类影响实际体验的“脏活累活”。它致力于让命令行界面(CLI)、模型上下文协议(MCP)、桌面应用、远程Agent以及不同模型之间的协作摩擦降到最低,让每一次截图、点击、窗口选择都更加可预期、可依赖。这里没有什么惊天动地的“神迹”,只有大量细致入微的工程优化。而这些工作做得越多,用户在实际使用时就越感知不到它的存在。

一个好工具的最高境界,往往是“没有存在感”。按钮该点就点,窗口该找就找,任务该继续就继续,一切顺畅自然。Peekaboo现在正朝着这个方向扎实地补课。

它让OpenClaw从会聊天变成会干活

回顾一下,OpenClaw过去主要解决的是“连接”问题:人从哪里发消息,消息如何被接收和处理,结果又如何返回。而Peekaboo解决的是“执行”问题:Agent接到任务规划后,能否真实地“看到”桌面,能否准确地找到可操作对象,能否一步步地将计划推进下去。

只有当这两个问题合二为一,才真正接近普通人所期待的“AI助手”模样。接入了Peekaboo的OpenClaw,开始更像一位在线的值班工程师:能够登录系统、查看屏幕状态、排查问题、点击配置、执行流程,让人产生一种“可以把事情托付给它”的信任感。

这也是Peekaboo对OpenClaw生态的深层意义。它正将OpenClaw从“消息处理系统”向“本地操作系统扩展层”推进一步。再往前展望,OpenClaw或许将不再仅仅是AI能力的入口,而有望成为AI操作个人电脑、管理个人工作流的本地核心控制层。真正的智能助理,正在从概念走向桌面。

来源:https://36kr.com/p/3804769591893511

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
吉利汽车携全系产品技术亮相车展 开启全域AI 2.0时代

吉利汽车携全系产品技术亮相车展 开启全域AI 2.0时代

吉利汽车在北京车展推出全域AI2 0技术体系,首发Robotaxi原型车EvaCab。该车以乘员为中心设计,集成量子级AI架构、超强算力平台及2160线激光雷达,支持L4级自动驾驶。吉利通过星睿AI大模型与智算中心构建“1+2+N”智能体布局,加速高阶智能驾驶技术在多车型落地,展现智能出行领域领先实力。

时间:2026-05-11 21:25
一加与realme合并 OPPO成立全新子系列事业部

一加与realme合并 OPPO成立全新子系列事业部

OPPO成立子系列事业部,整合一加与真我品牌。李炳忠出任负责人,徐起负责营销服。产品中心由李杰负责,研发团队回归OPPO。真我用户自2026年起可接入OPPO服务体系,享受线下维修、寄修追踪及会员日服务。一加下一代旗舰或搭载骁龙8EliteGen6Pro芯片,配备顶级屏幕,定价策略受关注。

时间:2026-05-11 21:25
2026年4月汽车销量榜发布比亚迪奇瑞吉利领跑出口数据亮眼

2026年4月汽车销量榜发布比亚迪奇瑞吉利领跑出口数据亮眼

2026年4月汽车销量排行榜发布:比亚迪蝉联榜首,奇瑞吉利紧随其后,海外市场成增长引擎 随着2026年4月汽车销量与交付数据的陆续公布,国内汽车市场的竞争格局呈现出新的动态。比亚迪凭借32 1万辆的月度销量成绩持续领跑,展现出强大的市场号召力。与此同时,奇瑞、吉利等传统车企稳居前列,而众多造车新势力

时间:2026-05-11 21:21
英特尔股价首破百美元市值突破五千亿美元大关

英特尔股价首破百美元市值突破五千亿美元大关

英特尔股价盘中大涨超6%,突破每股100美元,市值站上5000亿美元大关。四月累计涨幅达114%,实现翻倍增长。公司第一季度营收同比增长7%,数据中心与AI业务收入增长22%,成为核心增长引擎。高于预期的第二季度业绩指引进一步提振市场信心,显示其在AI时代保持强劲竞争力。

时间:2026-05-11 21:20
追觅模块化手机发布 机身与镜头均可拆卸设计

追觅模块化手机发布 机身与镜头均可拆卸设计

追觅科技创始人俞浩展示了模块化手机真机视频,其镜头模组与后盖均可磁吸拆卸,使机身更轻薄便携。该设计允许用户根据需求更换配件,提升灵活性与可玩性。目前手机已进入实际研发阶段,旨在以模块化思路开拓高端市场,具体配置和发布时间尚未公布。

时间:2026-05-11 21:20
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程