苹果撤稿RLAX论文：作者团队被指涉抄袭谷歌TPU与阿里Qwen技术

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

苹果撤稿RLAX论文：作者团队被指涉抄袭谷歌TPU与阿里Qwen技术

热心网友时间：2025-12-15

转载

机器之心报道

编辑：Panda

昨天，苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。

不过观看其提交历史，可以看到该论文在 12 月 6 日（UTC）就已被提交到 arXiv，到 11 号已经过去了 5 天，公开上线之后却又被光速撤稿，这不由得地让人好奇究竟发生了什么。

不过好在该论文有一个 v1 版本已经被互联网记录，所以我们也能打开这篇论文一探究竟。

论文中，苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架RLAX

是的，你没有看错，不是 GPU，也不是苹果自家的 M 系列芯片，而是谷歌的 TPU！还不止如此，这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。

论文标题：RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs论文地址：https://arxiv.org/pdf/2512.06392v1

总之，这篇论文的贡献还真不少。

不过，在具体介绍这篇论文的研究成果之前，我们有必要先关注一下其作者名单。

RLAX 的作者们

RLAX 论文共有四名核心作者：Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

通讯作者则是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在苹果担任 Principal Engineer，现已经入职 Meta，成为了一位 AI 研究科学家。而 Cheng Leong 则是已在苹果工作超过 13 年的老将，现任苹果 AI Infra（人工智能基础设施）主管。

截图自 LinkedIn

此外，我们还在作者名单中看到了庞若鸣的名字。

这位已经加入 Meta 的前苹果 AI 负责人与其他六位作者的名字一起也出现了论文第一页的最下方，并被描述为「已离开苹果公司。他们在受雇于苹果公司期间为这项工作做出了贡献。」而且他们基本都是前几个月才刚刚离职。

简单搜索一下这六位作者的履历，可以看到：

Kelvin Zou 加入了 MetaHanzhi Zhou 已入职 OpenAIYe Ke 加入了 AnthropicFloris Weers 以创始工程师身份加入了一家正处于隐身状态的创业公司Chong Wang 也加入了 MetaYi Zhang 现在 xAI 研究模型推理。

RLAX：为了抢占 TPU 而生

回到技术本身。强化学习（RL）对现代推理语言模型的重要性已无需多言，几乎所有的顶尖模型都是基于 RL 的推理模型，包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

苹果开发的RLAX 是一个专为在大规模分布式 TPU 集群上高效执行最先进 RL 算法而设计的强化学习框架

极致解耦与抢占式调度

RLAX 采用了参数-服务器（Parameter-Server）架构。主训练器（Master Trainer）会定期将更新后的模型权重推送到参数服务器。与此同时，一组推理工作器（Inference Workers）会拉取最新权重，并生成新的采样数据（Rollouts）。

该团队引入了一套系统级技术，将训练器、推理工作器和验证器（Verifiers）在逻辑上进行了分离。这种逻辑分离使得 RLAX 能够灵活且独立地为各个组件分配计算资源。

最重要的是，RLAX 完全支持抢占式调度。这意味着当有更高优先级的任务（如在线推理负载）需要时，系统可以立即回收 TPU 资源，而不会导致训练崩溃。

灵活的策略支持

RLAX 致力于解决大规模 LLM 后训练 RL 过程中的关键挑战，特别是如何高效处理 On-policy（在线策略）和 Off-policy（离线策略）RL。

为此，RLAX 提供了可编程的配置选项。用户可以强制执行「陈旧度界限」（Staleness Bounds），指定推理工作器拉取新权重的频率，以及训练器所能容忍的最大 Rollout 陈旧度。这使得用户可以在 On-policy 和 Off-policy RL 之间灵活选择。

Oubliette：把代码扔进地牢

在验证器（Verifiers）的设计上，苹果工程师展现了一种特有的黑色幽默。

验证器需要针对训练语料库中每种编程语言进行代码执行验证。为了高效且确定性地验证 Python 程序，他们将标准 Python 依赖项容器化。

为了跑通大规模代码测试，他们调用了亚马逊的 AWS Lambda 服务，并将其命名为「Oubliette」。

「Oubliette」一词源自法语，原意是指城堡中只有一个出口（通常是天花板上的活板门）的地下地牢，是专门用来「遗忘」囚犯的地方。

苹果工程师用这个词来隐喻他们的无状态验证环境：代码和测试数据被扔进这个基于 AWS Lambda 的「地牢」里，跑完测试、吐出结果后，整个环境即刻销毁，就像这段代码从未存在过一样。

表现如何？

有趣的是，在实验阶段，我们看到了一个「缝合怪」的诞生：

算力底座：如论文标题明示的那样，不是自家芯片，也不是英伟达 GPU，而是谷歌的 TPU v5p（使用了 1024 张 TPU v5p 进行实验）。验证环境：为了跑通大规模代码测试，他们调用了亚马逊的 AWS Lambda 服务。基础模型：他们用来验证这套框架的模型，不是 Apple Intelligence 的底座，而是来自中国阿里团队开源的 QwQ-32B。

没错，苹果的工程师，在美国用着谷歌的 TPU，调着亚马逊的 Serverless 服务，去优化一个中国开源的 Qwen 模型。

结果倒是非常亮眼。RLAX 仅用 12 小时 48 分钟，在 1024 个 v5p TPU 上将 QwQ-32B 的 pass@8 准确率提高了12.8%，同时在训练期间保持了对任务抢占的鲁棒性。