OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

热心网友时间：2026-05-11

转载

最近，AI领域有个现象挺有意思：大语言模型驱动的编程智能体（coding agent），不训练新网络、不更新权重，只是持续地看失败、改代码、加测试、看回放，就能让一套程序系统变得越来越强。这背后，其实指向了一个更根本的问题。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

OpenAI的翁家翌（后训练强化学习基础设施的作者）在业余时间做了个实验，结果连他自己都有些意外。

他的初衷很简单：给游戏环境写几条成本低廉的测试规则，替代每次持续集成（CI）都跑一遍神经网络，省点计算资源。

于是，他用Codex（基于GPT-4）写了一套完全不依赖神经网络的纯规则策略。没想到，事情开始朝着意想不到的方向发展。

在打砖块游戏（Atari Breakout）中，得分从387一路攀升至507、839、864，最后竟打到了理论最高分。

在MuJoCo仿真环境中的四足机器人Ant任务里，纯Python程序策略先是学会了节律步态，再接上短视窗模型预测控制，最终跑到了6000+的分数，进入了常见深度强化学习算法的性能量级。

同样是MuJoCo的HalfCheetah（机器人跑步）任务，凭借可解释的步态与姿态规则，加上在线规划，5次复测的平均分达到了11836.7，同样跻身深度强化学习的成绩区间。

在第一人称视觉任务VizDoom中，仅使用cv2和NumPy处理屏幕图像，10次随机种子的平均得分也有557.0。

更关键的是，在完整的Atari 57款游戏基准测试中，在固定的环境交互步数下，其中位数得分在约100万步时，就已经显著超越了PPO这类主流深度强化学习算法。

而整个过程，没有训练任何一个神经网络。

规则系统真正在做的事

但比这些结果更值得玩味的，是翁家翌观察到的另一个现象：Codex所做的，并非简单地反复重写一条策略。它实际上是在维护一套持续生长、不断演进的软件系统。

以打砖块为例，最终的策略远非一句“球在左边就往左”那么简单。系统里逐渐生长出了动作探测、状态读取、球与挡板检测、落点预测、卡死循环检测、回归测试、视频回放和实验记录等一系列模块。

Ant的策略里，则包含了节律控制器、姿态反馈环、接触信息处理、短视窗模型展开等组件。

被更新的对象，早已超越了策略函数本身，变成了一套带有记忆、反馈入口和回归验证机制的完整软件工程产物。

翁家翌将这个过程命名为“启发式学习”（Heuristic Learning, HL），而那个被长期维护的对象，则称为“启发式系统”（Heuristic System, HS）。

HL与深度强化学习共享“状态-动作-反馈-更新”的闭环，但核心差异在于更新的对象：从神经网络的权重参数，变成了软件系统的代码结构。反馈由编程智能体消化，来源可以是环境奖励、测试用例、运行日志、视频回放，甚至是人类反馈。更新不走反向传播，而是由智能体直接修改策略代码、状态检测器、测试用例或记忆存储。

一个HS远不止一个policy.py文件。它至少包含程序策略、状态表示、反馈入口、实验记录、回放或测试套件、记忆模块，以及由编程智能体执行的更新机制。单条规则不够看，只有当规则、反馈、历史数据和下一轮更新全部串联起来，才能称之为一个HS。

我们可以这样对比两者的核心差异：

策略形态：深度强化学习由神经网络参数构成；HL则由代码构成，可以是规则、状态机、控制器、模型预测控制（MPC）或宏动作。

反馈来源：深度强化学习主要依赖预设的环境奖励；HL的反馈则由编程智能体根据上下文（context）灵活处理，测试失败、环境反馈、日志异常、回放视频都可作为输入。

更新方式：深度强化学习对参数进行梯度更新；HL则由编程智能体直接修改源代码。

记忆机制：在线策略（on-policy）的深度强化学习基本没有记忆，离线策略（off-policy）则有经验回放缓冲区；HL则可以显式地记录试验过程、结果摘要、失败原因、视频回放和版本差异。

为什么以前没有人做

如果说HL的前身是专家系统和规则系统，那么历史上阻碍其发展的核心问题，就在于维护成本。

人工维护启发式规则的典型路径往往是这样的：今天加一条规则修复了问题A，明天发现无意中破坏了功能B，后天不得不再补一个if条件分支，大后天就没人敢轻易删除任何旧代码了。最终，系统变得臃肿而脆弱。

问题不在于启发式规则本身没用，而在于人力无法长期负担其维护开销。这有点像工业革命前的手工纺纱——小规模尚可，一旦规模扩大，稳定性和成本就足以压垮整个体系。纺织机改变的是产能曲线，而编程智能体改变的，正是启发式规则的维护成本曲线。

目前常见的智能体反馈闭环是：提出功能需求，智能体编写代码，通过测试，人类给出反馈，下一轮打补丁。随着模型能力的提升，人类需要介入的次数逐渐减少，这个循环就有机会在边界明确的系统中自动闭合：环境反馈或测试失败触发问题，编程智能体读取上下文（日志、回放等），修改策略或测试，重新运行，将结果写回试验记录，进入下一轮迭代。

HL能解决持续学习难题吗

持续学习（Continual Learning）长期难以解决，核心卡点就是神经网络的“灾难性遗忘”：学了新任务，旧任务的能力就容易被覆盖或冲掉。

HL同样会面临“遗忘”问题。新规则修好了一个失败模式，可能同时破坏了旧场景；新的记忆把智能体反复引向错误方向；新的补丁改了公共接口，旧的调用方悄悄失效；规则越堆越多，最终连智能体自己也维护不动。

所以，HL并不会自动解决持续学习。但它把“防止遗忘”这个问题，变成了一个更工程化、更可管理的问题。

在HL框架下，旧能力可以被固化成一系列工程资产：回归测试用例、固定随机种子的回放脚本、黄金标准轨迹（golden trace）、失败视频集、版本差异对比、明确文档化的失败模式。历史是显式的、可读的、可删除的、可重构的。

当然，只增长不压缩的HS，最终一定会变成难以维护的“屎山”代码。它记住的东西很多，但记忆的方式太差，导致谁也不敢动，从而逐渐腐化。

因此，一个健康的HS需要两个持续进行的操作来维持：一是吸收反馈，将新的失败、日志、奖励写回系统；二是压缩历史，将一堆零散的局部补丁，重构为更简单、更可维护的代码表示。

这就把持续学习从“如何更新神经网络参数而不遗忘”，转变为了“如何&维护一个能持续吸收反馈的软件系统”。

HS能有多复杂

翁家翌提出了一个概念：耦合复杂度。它指的是编程智能体能够维护的策略的复杂程度，即一次更新必须同时照顾多少相互牵连的状态、规则、测试、反馈和历史模块。

这个量不能简单地用代码行数来衡量。500行策略如果模块边界清晰、测试完整、状态可复现，可能非常易于维护；而80行策略如果每行都互相牵制、缺乏日志、没有回放，也可能一碰就崩溃。

决定耦合复杂度上限的因素来自两方面：在代码侧，是模块边界、接口稳定性、测试覆盖率、日志可观测性、回滚成本和状态可复现性；在智能体侧，则是模型能力、上下文长度、记忆质量、工具质量以及整体迭代速度。

Atari 57中的《蒙特祖马的复仇》（Montezuma‘s Revenge）就是一个反例。在57款游戏中，有一条记录达到了400分，但其路线由86个宏动作组成，基本是开环执行。这说明有些复杂环境需要更强的程序形态来应对，比如可组合的宏动作、可恢复的搜索状态、长期记忆等，普通的if-else规则并不能解决所有问题。

下一个范式

回顾AI发展的范式转移路径：从预训练（Pretrain），到基于人类反馈的强化学习（RLHF），再到大规模强化学习（Large-scale RL）和基于视频的强化学习（RLVR）。凡是可以被验证的，都开始能被解决。

翁家翌认为，在线学习（Online Learning）和持续学习（Continual Learning）中的部分问题，可以通过启发式学习（HL）来应对。这或许能成为下一个值得关注的范式：凡是可以被持续迭代的，都开始能被解决。

之所以说是“部分解决”，是因为HL并不能做神经网络所能做的一切。它受限于代码的表达能力，例如在复杂感知和长程泛化方面。目前看来，很难想象有人能用纯Python代码、不借助任何神经网络来解决ImageNet级别的图像分类任务。

因此，最有希望的方向是神经网络与HL的结合：用HL处理在线数据，快速生成在线经验；将这些经验内化为可训练、可回归测试、可筛选的数据集；再周期性地用这些数据来更新神经网络。

以机器人为例，未来可能的分工形态或许是：专用的浅层神经网络作为“系统1”（快速、直觉）的一部分，负责感知、分类、物体状态估计等任务；HL也作为“系统1”的一部分，负责处理最新数据、执行规则、运行测试、管理回放、维护记忆、设定安全边界和局部恢复；而大语言模型智能体则作为“系统2”（慢速、理性），负责为HL提供高级反馈、改进数据质量，并周期性地从HL生成的数据中提取模式来更新自身。

这套结构还可以进一步分层：关节级HL、肢体级HL、全身平衡HL、任务级HL。底层负责安全和低延迟控制，中层负责步态和接触协调，高层负责任务规划、恢复和长期记忆。编程智能体不一定直接懂得如何走路，它更像是一个插入系统的“更新管线”，持续地将失败视频、传感器数据流、仿真结果、测试结果喂给系统，再把反馈改写成代码、参数、保护规则和记忆。

说到底，过去很多启发式方法看起来没有前途，原因往往不在于它们本身太弱，而在于其高昂的维护成本让人望而却步。编程智能体改变的，正是这条维护成本曲线。规则、测试、日志、记忆和补丁，这些曾经散落的工程材料，现在开始有机会组合成一个能够持续自我更新的启发式系统。这或许才是实验背后，那个更值得深思的转变。

来源:https://www.51cto.com/article/842831.html

上一篇： MJ动漫视频粒子消散特效制作教程

下一篇： Recraft教程手把手教你制作统一风格App图标