面包屑图标 当前位置: 首页
AI资讯
热点详情

Codex复读机功能上线 教你让AI重复执行指令

AI热点日报
AI热点日报时间:2026-06-23
热点解读

Codex上线Record&Replay功能,可录制用户操作生成可复用技能,让AI复现重复性任务。基于图形界面操控,适用于报销、上传视频等含隐性规则的工作,目前仅限macOS。

当你坐在电脑前专注处理工作时,身旁仿佛有一位沉默的观察者静静凝视着你的每一次操作:你点击何处,它便望向何处;你填写什么内容,它便默默记录。待你完成所有步骤后,它轻声说道:“下次,这项工作就交给我吧。”

这正是 Codex 近期重磅推出的新功能——Record & Replay。

简单来说,它的核心就是“录制+复现”。

你只需完整地演示一遍操作流程,Codex 在一旁学习观察,随后将整串步骤打包成一个可复用的 skill(技能)。下次遇到相同任务时,你只需开启新对话,调用这个 skill,并告知本次有哪些不同之处,剩余工作便全由 Codex 自主完成。

图形界面——这个为帮助人类摆脱命令行而被创造出的伟大设计,如今正逐步成为 AI 接管电脑的现成基础设施。

「学徒」模式正式上线,Codex 开始复制你的工作流

当然,并非所有任务都适合采用这种方式。

Record & Replay 瞄准的是那些重复性强、依赖个人偏好、难以用语言清晰描述但实际做一遍就能心领神会的任务。典型适用场景包括:报销流程、预订停车位、创建配置正确的 issue、发布视频、拉取周期性报表。

这些任务的共同特征是:要么步骤既固定又繁琐,要么隐藏着大量只有你本人熟悉的隐性规则。

比如文件该如何命名、某个字段默认填写什么内容、遇到分叉路口应选择哪条路径。若要用文字逐条向 AI 解释,成本极高——不如直接操作一遍,让它自行观察学习。

实际操作流程比想象中更简洁,主要分为七个步骤。

首先,在 Codex 应用中打开 Plugins(插件)面板,搜索并添加 Record & Replay 插件。

随后,系统会请求录制权限,你确认准备就绪后点击同意即可。

接下来的过程,就是你在 Mac 电脑上正常地完成手头任务。

在此期间,Codex 全程保持观察,学习这套操作需要点击哪些位置、操作哪些窗口中的内容。

录制会持续进行,直到你主动中止。因此请牢记:专心完成指定任务,切勿在录制中途转向其他操作。

完成任务后,通过菜单栏或悬浮层停止录制,或者直接对 Codex 说一声“录完了”。

录制结束后,Codex 会回放刚捕捉到的操作流程,并自动起草一个 skill。这个 skill 中清晰写明了:何时应使用这套流程、需要哪些输入参数、执行步骤是什么、以及如何验证结果。

如果你觉得它起草得不够完善,还可以要求它进一步优化打磨。

以下几条录制建议值得认真遵循:

演示应尽量简短而完整;录制开始前,先将目标以及每次都会变化的输入信息告知 Codex;使用真实输入内容,但绝对不要录入密码或敏感数据;录制完成后,补充重要的隐性偏好,例如命名规范、字段默认值、决策点的选择方式;流程结束后立即停止录制,避免拖入无关的收尾动作。

至于后续的复现过程则非常简单:开启新对话,调用该 skill,将本次的具体数值传递给它——比如要上传哪个文件、创建哪个 issue、报表需要哪段时间范围。

有一个关键设定值得注意:Codex 会将这个 skill 视为可复用的上下文(reusable context)。

这是什么意思呢?这个 skill 并非一段固定不变的脚本,而是一份可供每次参考、结合当前环境灵活执行的说明书。因此,同一个 skill,这次传入 A 文件、下次传入 B 文件,它都能自动适配使用。

在实际执行任务时,它会调用当前环境下可用的工具,包括 Computer Use、浏览器操作以及已安装的插件,从而完整跑完整个流程。

Codex 究竟如何「使用电脑」

让我们来看一次公开演示。

这次 Codex 需要学习的是上传 YouTube 视频的完整流程。它的工作方式是:紧盯用户在 YouTube Studio 中的操作,将点击、选择文件、输入文字等一系列动作全部捕捉下来。

从选择视频文件、填写标题与描述、上传缩略图、添加字幕到设置隐私选项等步骤,Codex 全部记录下来,并随后展示了独立复现的能力。

更有趣的是,它并非机械地照搬步骤,而是试图理解背后的逻辑与门道。

例如,何时应将视频设为 Private、何时设为 Unlisted;如何管理成对的 .mp4 视频文件和 .srt 字幕文件;元数据字段应如何填写;字幕如何与视频内容对齐。

它还现场处理了一次报错:

当缺乏 Python 环境时,它直接从已安装的 skill 位置读取信息,自行适配解决。而这一整段录制下来的内容,最终被转译成一个随时可调用的 skill。

换言之,一旦 Codex 学会,理论上就能够在无人监控的情况下反复执行。对于那些每天需要上传大量视频的内容工作流而言,这项功能确实极具实用价值。

要理解它凭什么能够复现,首先需要弄清 Codex 操作电脑的原理。

OpenAI 工程师 Jason 此前梳理过 Codex 使用电脑的三种途径,能力各有重叠,也各有擅长的领域。总体原则是:能用插件或 MCP 时就优先使用,视觉控制则留给结构化工具无法覆盖的角落。

第一种是 Computer Use,覆盖面最广。

它能够在 macOS 和 Windows 上查看并操作图形界面,通过窗口、菜单、键盘、剪贴板来控制已获得授权的应用。

代价是速度较慢,因为它需要查看界面、判断点击位置、等待响应、再确认状态,每一步都需要反复确认。但优势也很明显:那些没有 API 的应用它同样能够应对,例如 Spotify、Xcode、系统设置、iOS 模拟器,甚至可以通过 iPhone 镜像来操作 iPhone 设备。

在 macOS 上,它还可以在后台运行,让你同时进行其他操作。它的信任边界也最为宽松,但凡是涉及资金、账户、支付、凭据的改动,建议你全程在场监督。

这也解释了为什么 Record & Replay 必须与 Computer Use 同时开启——它录制下来的操作要复现,依赖的正是 Computer Use 这套查看界面、操控鼠标键盘的底层能力。

第二种是 Chrome 扩展。

它接管你已经登录好的 Chrome 浏览器,适合那些依赖账号、cookie、已认证标签页的任务,比如 Gmail、Salesforce、内部仪表盘。它能够同时管理多个标签页,将同一个任务的不同标签页串联成一个完整的工作流来理解。

代价是它会带着你的身份进行操作,网站会将其点击和提交视为你本人的行为,因此涉及发送、发布、购买等步骤时,通常需要你先审核确认。

第三种是应用内浏览器。

它运行在 Codex 对话内部,与你共享同一个渲染页面,特别适合开发调试 Web 应用。它最大的特点是隔离性——不会触碰你的浏览器配置、cookie、扩展和登录会话。

需要时这是限制,不需要时反而是一个干净的边界。开发者可以让它修改代码、操作页面、截图、修复问题后再运行,形成紧密的反馈循环,还能直接点击页面元素留下设计意见。

此外还有一个名为 Appshot 的机制,它不直接操作电脑,而是负责将 Codex 的注意力引向你当前关注的内容。在 Mac 上连续按两下 CMD 键,它会抓取最前面的窗口,将图像和文字附加到对话中。你可以直接针对一个报错、一封邮件或一个看不懂的表单向它提问。

用 Jason 的话来说,Appshot 负责指方向,而浏览器、Chrome 扩展和 Computer Use 负责动手操作。至于 Record & Replay 录制下来的 skill,则可以随时调用上述任意一种或多种方式来复现操作。

人类操作软件的经验,正在逐步转化为 AI 技能

自今年年初以来,Codex 的发布节奏不断加快,许多人都不知道的是,Codex 应用、CLI 和 SDK 并非只能搭配 OpenAI 自家模型使用。

只需在 config.toml 中配置 model_providers,你就可以将 Codex 指向 Ollama、LM Studio 等本地开源模型,也能连接 Mistral、Azure、Amazon Bedrock 等第三方服务。加上 --oss 参数即可运行本地 provider,若不指定则默认使用 oss_provider。

也就是说,Record & Replay 这种能力所依托的客户端本身对模型是开放的。

当然,它也有适用范围。Record & Replay 是从一次演示中快速创建 skill 的捷径,但如果你希望将一个稳定的包分发给整个团队、捆绑多个 skill、添加应用集成或 MCP 服务器、管理安装元数据,那么请不要停留在录制层面,而是将其打包成独立的插件。

此外,还有几个上手前最好了解的限制条件。

目前,Record & Replay 仅在 macOS 上可用,首发不覆盖欧盟、英国和瑞士地区,并且必须先开启 Computer Use 功能。

如果你作为组织管理员,还需要注意一个容易踩坑的地方:

如果你们使用 requirements.toml 统一管理 Codex,那么 [features].computer_use 这一项会同时控制 Record & Replay 的启用状态。

一旦将 computer_use 设为 false,你会发现这两个功能会一同消失。因此,如果你发现「我这边根本看不到 Record & Replay」,请优先检查这一项是否被关闭。

「Record & Replay」的上线,表面上只是一个录制和复现操作的小功能,但放在更大的背景下,它代表着 AI 与软件交互方式的一次重要转变。

过去,自动化的基础是 API。软件必须先开放接口,将能力封装成机器可调用的服务,自动化工具和 AI 才能接手流程。没有 API,没有结构化入口,许多任务就无法实现自动化。

因此,传统自动化的边界往往取决于软件愿意开放多少能力。

但现在,OpenAI 试图绕开这层限制。它不再要求软件专门为 AI 提供接口,而是让 AI 直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口,它也能理解;人能完成点击、输入和页面切换,它也能执行。

这意味着,AI 的工作对象开始从 API 扩展到整个图形界面。换言之,「Computer Use」负责赋予 AI 操作电脑的能力,而「Record & Replay」则负责将人的操作经验沉淀为可复用的技能。

这背后对应的,其实是操作系统角色的变化。过去,操作系统是所有软件的组织者。我们在 Mac 或 Windows 上安装各种应用,再通过人工在不同软件之间切换、复制、整理和传递信息。

人始终是连接各个软件的中间层。

而当 AI 能够跨应用观察、理解并执行任务时,它开始承担这层角色。对用户而言,关注点逐渐从「如何操作软件」转向「想完成什么事情」。

报销软件如何填写、视频后台如何配置、多个系统之间如何来回切换——这些细节理论上都可以交给 AI 处理。照这样发展下去,未来真正频繁使用软件的,或许不再是人类,而是 AI。

对于 AI 来说,漂亮的界面没有意义,复杂的菜单也无意义。它更关心的是:这个软件能否完成任务、能否被调用、能否稳定执行流程。

从这个角度看,「Record & Replay」真正有意思的地方,并非又多了一个自动化功能,而是它透露出一种新的趋势:人正在从软件的直接操作者,逐渐转变为软件能力的训练者。

今天我们学习如何使用工具,未来或许更重要的一项能力,是教会 AI 使用工具。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Codex复读机功能上线 教你让AI重复执行指令要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://36kr.com/p/3863556465595649
ai

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 19:00
Daetama数据科学完整准备工作系统指南与精选学习资源汇总

Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。

AI热点2026-07-04 19:00
AI驱动配音平台 Speakmulti

SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。

AI热点2026-07-04 18:59
Umi-OCR图片转文字识别软件

需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,

AI热点2026-07-04 18:59
用AI生成你最爱的画家或艺术运动风格绘画

艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来

延伸阅读