当前位置: 首页
科技数码
华人团队开源养虾神器OpenClaw-RL框架:让AI边用边学养虾

华人团队开源养虾神器OpenClaw-RL框架:让AI边用边学养虾

热心网友 时间:2026-03-16
转载

过去一周全网都在养那只红色卡通龙虾 OpenClaw。作为能够自己动手干活的 AI 智能体,有人花几千块请它回家,几天后账号被盗、文件被删,又花几百块请人卸载。从排队安装到扎堆卸载只隔了一周。

虾到底该怎么养?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)和团队成员(王胤杰博士等人)给出一个让虾越养越好、越养越聪明的答案。


图 | 杨灵(来源:受访者)

几天前,杨灵等人发布了一个名为 OpenClaw-RL 的开源框架,核心逻辑非常简单但颇具洞察,你和 AI 的每一次对话本身就是最好的训练数据。这套系统让 AI 正常服务用户的同时,后台有四个完全解耦的模块在异步运转:策略服务、轨迹收集、过程奖励评估与参数训练,彼此互不阻塞。


(来源:https://arxiv.org/pdf/2603.10165)

杨灵告诉 DeepTech:“我们这次聚焦的是个性化场景下的在线强化学习。这个方向之前很少有人系统性地研究,主要原因是缺少自然产生的交互数据,学术界很难构造可复现的 benchmark,工业界也缺少端到端的训练闭环。”

“我们这次的工作相当于为这个方向提供了第一套完整的基础设施和方法论,从数据收集、信号提取到策略优化,形成了一个可落地的闭环,同时也提出了一些新的研究视角。”其表示。

这套系统的核心洞察在于重新审视了一个被长期忽视的资源:AI 每执行一次动作之后,都会收到一个"下一状态"(next state),用户的回复、工具的输出、测试的结果、界面的变化,这些全部是信号。现有系统只是把这些信号当做下一轮对话的上下文输入,但 OpenClaw-RL 的观点是,它们本质上是对上一步动作质量最直接、最丰富的反馈,完全可以在不需要任何人工标注的情况下,转化为强化学习的训练信号。


(来源:https://arxiv.org/pdf/2603.10165)

这些信号里藏着两种截然不同的信息:

第一种是评估性信号。用户满意就给正分,不满意就给负分;用户重复提问往往意味着不满,测试通过则意味着成功。这些信号被一个名为"过程奖励模型"(Process Reward Model, PRM)的裁判模块捕捉。

为了提高判断的鲁棒性,系统对每一步动作进行多次独立评估,然后通过多数表决机制,将结果转换成+1(好)、-1(差)或 0(中性)的标量奖励。与传统强化学习只在任务结束时给出一个最终分数不同,这种逐步评估的方式让训练信号密集了一个数量级,策略模型可以精确知道是哪一步做对了、哪一步做错了。

第二种是指导性信号。当用户对 AI 说"你应该先检查文件再编辑",这不只是一个差评,它在告诉 AI 具体哪里做错了、应该怎么改。然而,仅靠+1/-1 的标量奖励根本无法传递这种细粒度的纠正信息:它只能说"你错了",却说不清"错在哪里、该怎么改"。

为此,杨灵和团队设计了一种名为“基于提示的在线策略蒸馏”(Hindsight-Guided On-Policy Distillation, OPD)的方法。其核心思路巧妙而直觉:当下一条用户回复到来时,系统中的裁判模块会从中提炼一句可操作的"事后提示"(hindsight hint),例如“应该先检查文件是否存在再执行编辑操作”。然后,系统把这条提示附加到原来的对话历史中,构造出一个"增强版提示"。

关键来了:系统并不让模型重新生成一版回答,而是让同一个模型在增强版提示下重新评估原始回答中每一个词的生成概率。如果某个词在"知道提示之后"的概率变高了,说明这个词说对了,模型应当加强;反之如果概率降低了,说明这个词不够好,应当抑制。这种逐词级别的方向性信号远比一个简单的“好/坏”分数丰富得多,它不仅告诉模型"你错了",还精确指出"哪个词该多说、哪个词该少说"。

这两种方法互为补充:评估性信号覆盖范围广,几乎每一轮对话都能产生奖励信号,虽然粒度较粗但胜在无处不在;指导性信号则只有在用户提供了具有纠正意义的反馈时才会触发,出现频率较低但信息密度极高。论文实验表明,将两者结合使用时,效果显著优于单独使用任何一种方法。


(来源:https://arxiv.org/pdf/2603.10165)

研究中,他们在以下两个模拟场景里做了测试:

一个是让学生使用 AI 写作业,要求是别让老师看出来是 AI 写的(当然现实生活中不鼓励大家这样使用)。另一个是让老师用 AI 批改作业,要求评语要具体又友善。

在老师使用 AI 批改作业的那个例子里,一开始 AI 只会回答“正确,做得很好”。但在经过 24 轮优化之后它会写下“你把 3 周转成 21 天这一步很多同学会漏掉,但是你处理得很准确”这样的评语,同时还配上了表情符号,非常符合人类世界所倡导的夸奖要具体而真实的做法。

OpenClaw-RL 在工程上的另一个突破是将 AI 训练从传统的"停服更新"变成了"边用边学"。整个系统采用全异步架构:策略服务器持续响应新的用户请求,轨迹收集器同步截取训练所需的数据,裁判模块并发地给前一个回答打分,而训练器则在后台持续更新参数。

当参数更新完成时,系统会短暂暂停数据提交、加载新权重,然后无缝恢复服务。整个过程中没有任何组件需要等待其他组件完成,用户端感受到的是零中断的连续服务。

他们还把 OpenClaw-RL 应用到了更加复杂的通用智能体场景,涵盖终端操作(128 个并行环境)、图形界面操作(64 个)、代码编写(64 个)和工具调用(32 个)四大类任务。在工具调用任务上,同时使用过程奖励和结果奖励两种信号,准确率从基线的 17% 一路提升到 76%,这意味着同一个模型在持续交互中完成了超过 4 倍的性能跃升。


(来源:https://arxiv.org/pdf/2603.10165)

据杨灵介绍,这套训练框架的一个重要发现是:来自不同 Agent 场景(终端、GUI、代码、工具调用)的交互数据可以放在同一个框架中联合训练,并且模型在各个维度上都呈现出整体性的上升趋势。"这意味着统一的 Agent 强化学习训练是可行的,"杨灵说,"如果这条路能走通,对于构建真正通用的 AI 智能体会是一个非常关键的基础。

因为通用智能体最终要面对不同种类的任务、场景和用户需求,一套统一且可扩展的训练框架是必要条件。据我们所知,这种跨场景联合训练 Agent 的视角之前还没有被系统性地探索过。"


(来源:https://arxiv.org/pdf/2603.10165)

“事实上,这项研究从 idea 提出到开源,我们只花了三天。当然必要的沟通不能少,但在现在这个时代,有些想法从出来到实现,真的可以很快。”杨灵表示。

他补充称:"不过在这个大家都在拼速度的时代,我觉得对问题的判断力和研究品味反而更重要。选择做什么、不做什么,能不能识别出真正有长期价值的问题,这些决定了一个研究方向最终能走多远。执行力当然也关键,不只是说模型能不能跑出好的数字,而是整套系统能不能真正落地、让人用起来。"

在应用前景上,杨灵认为 OpenClaw-RL 有两个最有价值的落地方向。

第一个是隐私敏感的本地化场景。例如政府部门、金融机构和医疗机构,这些场景不可能将数据传输给外部的大模型 API,但同样有强烈的 AI 智能体需求。OpenClaw-RL 提供了一条可行路径:在本地部署模型,通过日常使用中的自然交互持续优化,数据全程不出本地。

"第二个方向是工业级的大规模 Agent 训练,"杨灵说,"目前开源的 Agent 训练框架很多只针对单一场景做优化。我们的系统从设计之初就是跨场景的,终端、GUI、代码、工具调用可以在同一套框架里联合训练。这意味着它的架构天然适合扩展到工业规模的多场景 Agent 优化。"

论文发布后,杨灵收到了来自学术界和工业界的诸多合作邀约。团队计划沿两条线并行推进。研究方面,他们希望将 next-state learning 这一范式做深做透,不仅限于策略优化,还将拓展到 Agent 的记忆系统和技能积累机制,最终目标是构建一套能在持续交互中自主进化的完整 Agent 学习体系。工程与应用方面,他们计划在更大规模和更多真实场景上验证框架的可扩展性,并与有实际 Agent 部署需求的企业展开合作。

谈到下一步,杨灵表示:"一方面我们希望大幅降低使用门槛,让个性化 Agent 训练变成一个开箱即用的事情,现在很多人连 OpenClaw 都装不明白,更别说跑强化学习了。我们会持续改善文档和工具链,目标是让普通开发者也能用上这套技术。

另一方面是 next-state learning 这个范式本身的纵深推进,目前我们只挖掘了其中的评估性信号和指导性信号,但 next-state 里其实还蕴含着预测性信号,也就是 Agent 能不能学会预判自己的动作会导致什么后果。如果这一层也能打通,Agent 就不再是被动等反馈,而是主动规避已知的失败模式。

而且这套范式天然是跨场景的,对话、工具调用、代码编写、图形界面操作这四类任务产生的 next-state 虽然形态各异,但都可以纳入同一个学习框架。这是一个非常有潜力的方向,我们正在积极推进。"

参考资料:

相关论文 https://arxiv.org/pdf/2603.10165

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KO5KHCKE05119734.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
比亚迪确认收购欧洲闲置工厂计划属实

比亚迪确认收购欧洲闲置工厂计划属实

一则关于比亚迪加速欧洲本土化布局的最新动态,近日引发了汽车行业广泛关注。据权威财经媒体报道,这家全球领先的中国新能源汽车制造商正在与Stellantis集团等多家欧洲主流汽车制造商进行深入接触,核心议题是商讨接管后者在欧洲地区利用率不足或闲置的工厂设施。 今日,比亚迪官方通过中证金牛座等渠道证实了谈

时间:2026-05-15 18:33
成都机器人吸引爱尔兰议员驻足互动海外嘉宾纷纷点赞

成都机器人吸引爱尔兰议员驻足互动海外嘉宾纷纷点赞

2026年成都国际友城合作与发展大会现场,一股源自本土的“硬核”科技风潮成为全场瞩目的焦点。来自成都的“智元”远征A2机器人、“四川具身”情感交互机器人等前沿产品集中展示,其创新形态与智能交互能力迅速吸引了众多与会嘉宾的关注。 会议期间,爱尔兰统一党议员基兰·丹尼森对这些成都制造的机器人表现出浓厚兴

时间:2026-05-15 18:32
东华测试在可控核聚变结构强度测试中的应用与进展

东华测试在可控核聚变结构强度测试中的应用与进展

可控核聚变,被誉为解决人类未来能源需求的终极方案。然而,从科学构想到工程实现,需要坚实而渐进的技术积累。近期,在一次专业的技术研讨中,东华测试分享了其在核能测试领域的最新动态,为我们洞察这一尖端行业的进展提供了具体视角。 从战略布局分析,公司的技术能力已全面覆盖核能发展的两大主流路径。在面向未来的可

时间:2026-05-15 18:32
美股科技股普遍下跌英伟达连续七日创新高白银价格大跌近5

美股科技股普遍下跌英伟达连续七日创新高白银价格大跌近5

5月14日晚,美股市场开市呈现高开态势,三大股指全线飘红。然而,市场的乐观情绪并未能持续蔓延至所有板块。 大型科技股普遍承压下行。截至当晚22:00左右,芯片巨头英伟达却逆势上扬,涨幅接近3%,股价连续第七个交易日刷新历史纪录,总市值攀升至5 63万亿美元。回顾过去两个月,其累计涨幅已接近24%,势

时间:2026-05-15 18:32
马斯克携幼子访华引热议 孩子穿中式服装学普通话

马斯克携幼子访华引热议 孩子穿中式服装学普通话

5月14日,特斯拉CEO埃隆·马斯克现身北京人民大会堂,其6岁儿子X AE A-XII(昵称小X)的造型成为全场焦点。这位小男孩身着复古中式马甲与虎头帽,手拎精致虎头包,活泼可爱的模样迅速在各大社交平台引发热议,收获无数网友点赞。 当晚,马斯克本人在社交媒体上用中文发文,分享了一个温馨细节:“我的儿

时间:2026-05-15 18:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程