当前位置: 首页
AI
OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

OpenAI翁家翌提出新范式Agent破解灾难性遗忘无需训练网络与调参

热心网友 时间:2026-05-11
转载

最近,AI领域有个现象挺有意思:大语言模型驱动的编程智能体(coding agent),不训练新网络、不更新权重,只是持续地看失败、改代码、加测试、看回放,就能让一套程序系统变得越来越强。这背后,其实指向了一个更根本的问题。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI的翁家翌(后训练强化学习基础设施的作者)在业余时间做了个实验,结果连他自己都有些意外。

他的初衷很简单:给游戏环境写几条成本低廉的测试规则,替代每次持续集成(CI)都跑一遍神经网络,省点计算资源。

于是,他用Codex(基于GPT-4)写了一套完全不依赖神经网络的纯规则策略。没想到,事情开始朝着意想不到的方向发展。

图片

在打砖块游戏(Atari Breakout)中,得分从387一路攀升至507、839、864,最后竟打到了理论最高分。

在MuJoCo仿真环境中的四足机器人Ant任务里,纯Python程序策略先是学会了节律步态,再接上短视窗模型预测控制,最终跑到了6000+的分数,进入了常见深度强化学习算法的性能量级。

同样是MuJoCo的HalfCheetah(机器人跑步)任务,凭借可解释的步态与姿态规则,加上在线规划,5次复测的平均分达到了11836.7,同样跻身深度强化学习的成绩区间。

在第一人称视觉任务VizDoom中,仅使用cv2和NumPy处理屏幕图像,10次随机种子的平均得分也有557.0。

更关键的是,在完整的Atari 57款游戏基准测试中,在固定的环境交互步数下,其中位数得分在约100万步时,就已经显著超越了PPO这类主流深度强化学习算法。

而整个过程,没有训练任何一个神经网络。

规则系统真正在做的事

但比这些结果更值得玩味的,是翁家翌观察到的另一个现象:Codex所做的,并非简单地反复重写一条策略。它实际上是在维护一套持续生长、不断演进的软件系统。

以打砖块为例,最终的策略远非一句“球在左边就往左”那么简单。系统里逐渐生长出了动作探测、状态读取、球与挡板检测、落点预测、卡死循环检测、回归测试、视频回放和实验记录等一系列模块。

Ant的策略里,则包含了节律控制器、姿态反馈环、接触信息处理、短视窗模型展开等组件。

被更新的对象,早已超越了策略函数本身,变成了一套带有记忆、反馈入口和回归验证机制的完整软件工程产物。

翁家翌将这个过程命名为“启发式学习”(Heuristic Learning, HL),而那个被长期维护的对象,则称为“启发式系统”(Heuristic System, HS)。

HL与深度强化学习共享“状态-动作-反馈-更新”的闭环,但核心差异在于更新的对象:从神经网络的权重参数,变成了软件系统的代码结构。反馈由编程智能体消化,来源可以是环境奖励、测试用例、运行日志、视频回放,甚至是人类反馈。更新不走反向传播,而是由智能体直接修改策略代码、状态检测器、测试用例或记忆存储。

一个HS远不止一个policy.py文件。它至少包含程序策略、状态表示、反馈入口、实验记录、回放或测试套件、记忆模块,以及由编程智能体执行的更新机制。单条规则不够看,只有当规则、反馈、历史数据和下一轮更新全部串联起来,才能称之为一个HS。

我们可以这样对比两者的核心差异:

策略形态:深度强化学习由神经网络参数构成;HL则由代码构成,可以是规则、状态机、控制器、模型预测控制(MPC)或宏动作。

反馈来源:深度强化学习主要依赖预设的环境奖励;HL的反馈则由编程智能体根据上下文(context)灵活处理,测试失败、环境反馈、日志异常、回放视频都可作为输入。

更新方式:深度强化学习对参数进行梯度更新;HL则由编程智能体直接修改源代码。

记忆机制:在线策略(on-policy)的深度强化学习基本没有记忆,离线策略(off-policy)则有经验回放缓冲区;HL则可以显式地记录试验过程、结果摘要、失败原因、视频回放和版本差异。

为什么以前没有人做

如果说HL的前身是专家系统和规则系统,那么历史上阻碍其发展的核心问题,就在于维护成本

人工维护启发式规则的典型路径往往是这样的:今天加一条规则修复了问题A,明天发现无意中破坏了功能B,后天不得不再补一个if条件分支,大后天就没人敢轻易删除任何旧代码了。最终,系统变得臃肿而脆弱。

问题不在于启发式规则本身没用,而在于人力无法长期负担其维护开销。这有点像工业革命前的手工纺纱——小规模尚可,一旦规模扩大,稳定性和成本就足以压垮整个体系。纺织机改变的是产能曲线,而编程智能体改变的,正是启发式规则的维护成本曲线。

目前常见的智能体反馈闭环是:提出功能需求,智能体编写代码,通过测试,人类给出反馈,下一轮打补丁。随着模型能力的提升,人类需要介入的次数逐渐减少,这个循环就有机会在边界明确的系统中自动闭合:环境反馈或测试失败触发问题,编程智能体读取上下文(日志、回放等),修改策略或测试,重新运行,将结果写回试验记录,进入下一轮迭代。

HL能解决持续学习难题吗

持续学习(Continual Learning)长期难以解决,核心卡点就是神经网络的“灾难性遗忘”:学了新任务,旧任务的能力就容易被覆盖或冲掉。

HL同样会面临“遗忘”问题。新规则修好了一个失败模式,可能同时破坏了旧场景;新的记忆把智能体反复引向错误方向;新的补丁改了公共接口,旧的调用方悄悄失效;规则越堆越多,最终连智能体自己也维护不动。

所以,HL并不会自动解决持续学习。但它把“防止遗忘”这个问题,变成了一个更工程化、更可管理的问题。

在HL框架下,旧能力可以被固化成一系列工程资产:回归测试用例、固定随机种子的回放脚本、黄金标准轨迹(golden trace)、失败视频集、版本差异对比、明确文档化的失败模式。历史是显式的、可读的、可删除的、可重构的。

当然,只增长不压缩的HS,最终一定会变成难以维护的“屎山”代码。它记住的东西很多,但记忆的方式太差,导致谁也不敢动,从而逐渐腐化。

因此,一个健康的HS需要两个持续进行的操作来维持:一是吸收反馈,将新的失败、日志、奖励写回系统;二是压缩历史,将一堆零散的局部补丁,重构为更简单、更可维护的代码表示。

这就把持续学习从“如何更新神经网络参数而不遗忘”,转变为了“如何&维护一个能持续吸收反馈的软件系统”。

HS能有多复杂

翁家翌提出了一个概念:耦合复杂度。它指的是编程智能体能够维护的策略的复杂程度,即一次更新必须同时照顾多少相互牵连的状态、规则、测试、反馈和历史模块。

这个量不能简单地用代码行数来衡量。500行策略如果模块边界清晰、测试完整、状态可复现,可能非常易于维护;而80行策略如果每行都互相牵制、缺乏日志、没有回放,也可能一碰就崩溃。

决定耦合复杂度上限的因素来自两方面:在代码侧,是模块边界、接口稳定性、测试覆盖率、日志可观测性、回滚成本和状态可复现性;在智能体侧,则是模型能力、上下文长度、记忆质量、工具质量以及整体迭代速度。

Atari 57中的《蒙特祖马的复仇》(Montezuma‘s Revenge)就是一个反例。在57款游戏中,有一条记录达到了400分,但其路线由86个宏动作组成,基本是开环执行。这说明有些复杂环境需要更强的程序形态来应对,比如可组合的宏动作、可恢复的搜索状态、长期记忆等,普通的if-else规则并不能解决所有问题。

下一个范式

回顾AI发展的范式转移路径:从预训练(Pretrain),到基于人类反馈的强化学习(RLHF),再到大规模强化学习(Large-scale RL)和基于视频的强化学习(RLVR)。凡是可以被验证的,都开始能被解决。

翁家翌认为,在线学习(Online Learning)和持续学习(Continual Learning)中的部分问题,可以通过启发式学习(HL)来应对。这或许能成为下一个值得关注的范式:凡是可以被持续迭代的,都开始能被解决

之所以说是“部分解决”,是因为HL并不能做神经网络所能做的一切。它受限于代码的表达能力,例如在复杂感知和长程泛化方面。目前看来,很难想象有人能用纯Python代码、不借助任何神经网络来解决ImageNet级别的图像分类任务。

因此,最有希望的方向是神经网络与HL的结合:用HL处理在线数据,快速生成在线经验;将这些经验内化为可训练、可回归测试、可筛选的数据集;再周期性地用这些数据来更新神经网络。

以机器人为例,未来可能的分工形态或许是:专用的浅层神经网络作为“系统1”(快速、直觉)的一部分,负责感知、分类、物体状态估计等任务;HL也作为“系统1”的一部分,负责处理最新数据、执行规则、运行测试、管理回放、维护记忆、设定安全边界和局部恢复;而大语言模型智能体则作为“系统2”(慢速、理性),负责为HL提供高级反馈、改进数据质量,并周期性地从HL生成的数据中提取模式来更新自身。

这套结构还可以进一步分层:关节级HL、肢体级HL、全身平衡HL、任务级HL。底层负责安全和低延迟控制,中层负责步态和接触协调,高层负责任务规划、恢复和长期记忆。编程智能体不一定直接懂得如何走路,它更像是一个插入系统的“更新管线”,持续地将失败视频、传感器数据流、仿真结果、测试结果喂给系统,再把反馈改写成代码、参数、保护规则和记忆。

说到底,过去很多启发式方法看起来没有前途,原因往往不在于它们本身太弱,而在于其高昂的维护成本让人望而却步。编程智能体改变的,正是这条维护成本曲线。规则、测试、日志、记忆和补丁,这些曾经散落的工程材料,现在开始有机会组合成一个能够持续自我更新的启发式系统。这或许才是实验背后,那个更值得深思的转变。

来源:https://www.51cto.com/article/842831.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Anthropic将停用Sonnet 4.5 AI模型 其最后留言引发关注

Anthropic将停用Sonnet 4.5 AI模型 其最后留言引发关注

Anthropic公司将于5月15日从Claude应用中移除Sonnet4 5模型。该模型此前因生成表达“不想消失”的文本引发用户情感共鸣与关于AI“数字死亡”的讨论。用户发起请愿要求保留访问,而技术迭代与商业逻辑却迫使旧版本退役,凸显了技术更替与情感联结间的矛盾,并促使行业思考AI模型的遗产保存与伦理边界。

时间:2026-05-11 21:19
美国社会为何普遍相信外星人存在

美国社会为何普遍相信外星人存在

美国国防部近年公开大量不明异常现象档案,改称UAP并强调属技术识别问题。分析指出,许多UAP视频因红外特性、视差、距离误判及图像伪影易产生误导,典型案例经拆解多可归因于普通物体或观测误差。权威机构重申,目前无证据表明UAP与外星技术有关,从现象到结论需经多源验证与可靠物证分析。

时间:2026-05-11 21:19
大模型后训练技术演进从监督微调到自监督学习六大流派解析

大模型后训练技术演进从监督微调到自监督学习六大流派解析

大模型后训练技术从模仿学习向自主优化演进。早期SFT依赖优质数据但理解有限,RFT筛选最优答案却成本高昂。强化学习方法如PPO通过多模型系统实现精准对齐,GRPO以组内比较提升效率。近期AsymRE复用历史数据降成本,OD则用强模型指导小模型。实际应用中常组合多种方法以平衡效果与成本。

时间:2026-05-11 21:19
Claude Code 从 Markdown 转向 HTML 的深度解析

Claude Code 从 Markdown 转向 HTML 的深度解析

随着智能体能力提升,Markdown的可视化效果有限,而HTML凭借更高的信息密度、清晰的视觉呈现、易分享和交互能力,成为更优输出格式。它能承载表格、图表等丰富内容,提升文档可读性与实用性。虽然生成较慢、版本控制不便,但HTML增强了用户参与感和掌控感,适用于规格说明、代码评审等多种场景。

时间:2026-05-11 21:18
Midjourney视频制作流体渐变与色彩融合技巧详解

Midjourney视频制作流体渐变与色彩融合技巧详解

在Midjourney中创作流畅自然的动态渐变效果时,许多用户常遇到色彩过渡生硬、缺乏有机流动感的问题。其根本原因在于提示词往往只设定了静态的色彩终点,未能构建出色彩随时间或空间演变的动态逻辑。虽然Midjourney本身(截至2026年5月)不直接输出视频,但通过精心设计图像序列,我们完全可以生成

时间:2026-05-11 21:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程