当前位置: 首页
AI资讯
小红书开源大模型强化学习训练引擎Relax完整解析

小红书开源大模型强化学习训练引擎Relax完整解析

热心网友 时间:2026-05-20
转载

在通往通用人工智能的征途中,大模型的后训练环节,尤其是强化学习阶段,正变得日益复杂与关键。这不仅仅是模型参数规模膨胀的结果,更源于我们对智能体能力边界的持续拓展——从最初的文本对话交互,演进到图文音视频的全模态理解,直至具备自主决策与行动能力的智能体。传统的强化学习训练框架,在面对这种多模态、长序列、多轮交互的复杂任务时,往往在训练效率、系统稳定性与架构灵活性方面面临严峻挑战。

近期,小红书AI平台团队开源了一款名为Relax的强化学习训练引擎,正是为了攻克上述核心痛点而生。它不仅仅是一个算法库,更是一套为生产环境设计、面向全模态与智能体场景量身打造的系统级解决方案。简而言之,Relax致力于回答一个关键问题:如何能够高效、稳定且优雅地训练下一代具备“视觉感知”、“听觉理解”、“语言生成”、“逻辑思考”与“自主行动”能力的大模型?

Relax是什么

您可以将Relax理解为一个高度工程化的“训练调度与执行中枢”。它构建于业界广泛认可的Megatron-LM训练框架与SGLang推理引擎之上,但其核心创新在于一套彻底服务化、完全异步的容错系统架构。该架构将强化学习训练中的关键角色——负责与环境交互采样的Rollout模块、负责策略更新的Actor模块、负责价值评估的Critic模块——进行彻底解耦,并封装为独立的微服务。这些服务通过一个名为TransferQueue的异步数据总线进行高效通信,形成了一条精密协作的流水线,各组件并行工作,极大减少了等待时间。

这种设计带来的直接优势是显著消除了训练流程中的瓶颈。想象一下这样的场景:当Critic服务在计算价值函数时,Actor服务无需空闲等待,可以继续处理前一批数据;同时,Rollout服务能够持续不断地从模拟环境中采集新的训练样本。官方验证数据显示,在16张H800 GPU的全异步模式下,Relax相比传统的耦合式训练(Colocate)实现了高达76%的端到端速度提升,相较于另一款主流异步框架veRL也有20%的性能优势。更重要的是,它原生支持文本、图像、音频、视频数据的统一训练流程,并已在Qwen3-Omni-30B这样的前沿模型上成功验证了四模态强化学习的稳定收敛。

Relax – 小红书开源的大模型强化学习训练引擎

Relax的主要功能

为应对现代化大模型训练的复杂需求,Relax集成了一系列强大功能:

  • 全模态强化学习训练:提供端到端的统一训练流水线,无缝处理图文音视频多模态数据,是少数经过验证能够支撑如Qwen3-Omni等大型全模态模型稳定进行后训练的开源框架。
  • 异步训练架构:其核心的TransferQueue数据总线确保了Rollout、Actor、Critic三大模块完全并行运作,最大化GPU资源利用率,有效杜绝了计算资源的闲置空转。
  • 服务化容错机制:每个功能模块均作为独立服务部署,单一组件发生故障不会导致整个训练任务崩溃,系统具备分钟级的自动检测与恢复能力。
  • 弹性资源扩缩容:训练过程中,用户可以通过简单的HTTP API动态增加或减少负责数据采样与推理的Rollout服务资源,甚至支持跨集群的任务调度,灵活应对不同训练阶段的负载变化。
  • 分布式权重同步:借助专用的分布式一致性服务,实现GPU间通过NCCL或TCP通道进行快速的模型权重广播与同步,在故障恢复时无需从磁盘缓慢加载检查点,极大缩短恢复时间。
  • 智能体多轮训练支持:原生为智能体训练场景设计,支持多轮对话状态保持、复杂工具调用、视觉上下文跨轮次传递以及灵活的损失掩码机制,完美适配“感知→决策→执行→观察”的强化学习闭环。
  • 丰富算法套件:内置了包括GRPO、GSPO、SAPO及On-Policy Distillation在内的多种前沿强化学习算法,并提供了基于规则与基于生成式奖励模型(GenRM)的两种奖励机制,满足不同训练需求。

Relax的技术原理

Relax卓越性能的背后,是其底层一系列精妙的工程设计:

  • 服务化异步架构:这是实现性能飞跃的核心。传统训练模式中,不同角色通常挤在同一组GPU上,容易造成资源争用与相互等待。Relax将其拆分为独立服务,通过流式微批数据传输实现流水线并行,彻底打破了串行执行的瓶颈。
  • 全模态数据流水线:内置的Omni Processor能够统一处理不同模态的输入数据。其字段级存储机制允许同一个训练样本中的不同部分(如图像特征、文本Token序列)被独立且高效地读写,这高度契合了强化学习训练多阶段、异构计算的特点。
  • 容错与弹性恢复机制:系统采用两级恢复策略。对于无状态服务,故障发生后可直接原地重启;对于有状态服务,则依赖分布式一致性服务进行全局状态的快速同步与恢复。该服务实现了GPU间的直接权重同步,避免了成为性能瓶颈的磁盘IO操作。
  • 异步一致性控制:通过一个可配置的max_staleness参数,开发者可以灵活地在“策略更新新鲜度”和“系统训练吞吐量”之间取得平衡,从而控制训练过程更接近On-Policy还是Off-Policy模式。StreamingDataLoader支持数据的增量消费,使得模型训练与数据加载、权重同步等操作能够重叠进行。

如何使用Relax

对于希望上手实践的研究者或工程师,Relax提供了清晰的入门路径:

  • 环境部署:最便捷的方式是直接拉取官方提供的预构建Docker镜像,其中已集成了CUDA、PyTorch、Megatron-LM等所有必要依赖。运行容器时,请确保正确挂载GPU驱动及工作目录。
  • 数据与模型准备:使用Hugging Face命令行工具将所需的数据集(例如dapo-math-17k)和预训练基础模型(如Qwen3系列的不同版本)下载到本地环境。
  • 启动训练任务:设置好指向数据根目录的环境变量,然后根据具体的任务类型(文本训练、全模态训练)执行对应的启动脚本。例如,进行文本任务训练可使用8卡配置脚本,而进行全模态任务则需调用支持跨节点通信的16卡脚本。
  • 模型导出与应用:训练完成后,Relax提供了方便的转换工具,能够将内部使用的Megatron分布式检查点格式,转换为业界通用的Hugging Face模型格式,便于后续的部署与推理应用。

Relax的关键信息和使用要求

在深入使用前,有几个关键信息需要了解:

  • 开源主体与时间:该项目由小红书AI平台团队主导开发,并于2026年4月15日正式开源。
  • 项目定位与技术底座:它定位为一款高性能的异步强化学习后训练引擎,其技术栈深度集成了Megatron-LM和SGLang。
  • 核心系统架构:整体采用清晰的六层服务化设计,从请求入口到分布式计算后端层次分明,其中TransferQueue和分布式一致性服务是其实现异步与容错的核心组件。
  • 性能与模态支持:在16张H800 GPU的硬件配置下,其全异步模式展现出显著的性能优势,并且是经过实际验证的、能够支持四模态统一训练的平台。
  • 硬件资源门槛:运行Relax有一定的硬件要求。单节点训练至少需要8张H800 GPU(以运行40亿参数模型为例),而进行全模态Omni模型训练则需要16张H800 GPU并跨2个节点部署。当然,其弹性扩缩容特性允许用户根据需求动态调整计算资源。

Relax的核心优势

综合来看,Relax在以下几个维度构建了其独特的竞争优势:

  • 全模态原生支持:对图文音视频的统一处理能力并非后期附加,而是在架构设计之初就深度融入,并经过了大规模模型的实证检验。
  • 极致异步性能:彻底的组件解耦设计带来了显著的训练效率提升,76%的加速比对于动辄数周甚至数月的模型训练周期而言,意味着巨大的时间与成本节约。
  • 生产级容错架构:将微服务的设计理念引入AI训练系统,实现了故障隔离、快速恢复和动态伸缩,极大地提升了大规模训练任务的鲁棒性和运维便利性。
  • 智能体原生设计:对多轮交互、复杂工具调用等智能体核心能力的原生支持,使其成为开发高级别自主智能体的理想平台。
  • 高效MoE模型支持:对于混合专家模型,其路由重放机制的开销控制得极为出色,相比其他方案具有数量级的效率优势。
  • 完备的运维体系:集成了健康状态监控、训练指标上报、实时告警等生产级运维功能,并提供了丰富的API接口用于自动化管理与集成。

Relax的项目地址

  • GitHub开源仓库:项目的全部源代码、详细文档和使用示例均托管于此。
  • arXiv技术论文:如果您希望深入了解其背后的技术原理、架构细节和完整的实验数据,可以阅读其公开发表的技术论文。

Relax的同类竞品对比

为了更清晰地定位Relax,我们将其与当前社区中两个主流的强化学习训练框架——veRL和OpenRLHF进行对比:

对比维度 Relax veRL OpenRLHF
开发团队 小红书 RedAI Infra 团队 字节跳动/清华大学/南京大学等联合团队 开源社区 (OpenRLHF Labs)
架构设计 服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线 HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统
异步机制 完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 支持 Colocate 与异步切换,但角色间耦合度高于 Relax
模态支持 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 主要为文本,多模态支持尚不完善 文本为主,OpenRLHF-M 分支支持多模态
训练后端 Megatron-LM (TP/PP/CP/EP) Megatron-LM / FSDP DeepSpeed
推理后端 SGLang vLLM / SGLang vLLM
容错机制 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 单控制器统一调度,缺乏服务级隔离,故障需全局重启 基于 Ray Actor 容错,无独立服务域设计
弹性扩缩容 HTTP REST API 动态扩缩容,支持跨集群联邦推理 训练过程固定配置,不支持动态扩缩容 支持动态资源调整,但粒度较粗
性能表现 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 支持 70B+ 模型,消费级显卡友好
MoE 支持 原生支持,Near-Zero-Overhead R3 支持但 R3 开销大(32%) 支持
Agentic 能力 原生支持多轮交互、工具调用、视觉上下文 Carry-over 基础支持多轮,缺乏服务级会话状态管理 基础支持
适用场景 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 万亿参数 MoE 模型、极致显存优化 70B+ 模型分布式训练、消费级显卡集群

从对比中不难看出,Relax在现代系统架构设计、异步执行的彻底性、对多模态与智能体的原生支持,以及生产级运维特性方面,展现出了鲜明的特色与显著优势。

Relax的应用场景

基于其强大的能力,Relax非常适合应用于以下几类前沿任务:

  • 全模态大模型后训练与对齐:训练如Qwen3-Omni这类能够统一理解与生成多模态信息的下一代模型,强化其跨模态的推理与内容生成能力。
  • 智能体开发与训练:构建能够熟练使用工具、与环境进行复杂多轮交互并自主制定决策的高级智能体,例如需要结合视觉信息进行多步规划的任务型助手。
  • 视觉语言任务专项优化:针对视觉问答、图像描述生成、视频内容理解等具体任务,进行精细化的强化学习对齐,以提升模型在特定领域的表现。
  • 数学推理与代码生成能力提升:利用其内置的GRPO等先进算法,专项强化大模型在解决复杂数学问题、进行逻辑推理和生成高质量代码方面的性能。
  • MoE模型高效训练:为混合专家模型提供高性价比的强化学习训练方案,显著降低因专家路由重放所带来的额外计算开销。

总而言之,Relax的诞生,为业界训练更复杂、更强大的多模态大模型和自主智能体,提供了一个在效率、稳定性和功能完备性上都极具竞争力的新选择。它代表了将大规模AI系统训练推向更高工程化、服务化水平的一次重要探索与实践。

来源:https://ai-bot.cn/relax/

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
复旦大学迎来ImageNet奠基人苏昊加盟担任通用物理AI学院院长

复旦大学迎来ImageNet奠基人苏昊加盟担任通用物理AI学院院长

克雷西 发自 凹非寺量子位 | 公众号 QbitAI 具身智能领域论文被引次数最高的华人学者,带着十七年的海外积淀,正式回归国内学术舞台。 就在刚刚结束的第五届中国三维视觉大会上,一个重磅消息得到官方确认:ImageNet缔造者之一、李飞飞教授的弟子苏昊,已加盟复旦大学。 根据校方安排,苏昊将担任浩

时间:2026-05-20 16:50
小米最新大模型 MiMo-V2-Pro 实力深度评测与解析

小米最新大模型 MiMo-V2-Pro 实力深度评测与解析

在AI智能体日益普及的当下,衡量一个大模型实力的关键不再是能否“回答问题”,而在于能否高效“完成任务”。近日,小米推出的旗舰级大模型Xiaomi MiMo-V2-Pro,正是瞄准这一趋势而生的“智能体专用引擎”。它以超过一万亿的总参数量跻身顶级大模型行列,并通过对Agent任务的深度优化,在强大性能

时间:2026-05-20 16:49
小红书开源大模型强化学习训练引擎Relax完整解析

小红书开源大模型强化学习训练引擎Relax完整解析

在通往通用人工智能的征途中,大模型的后训练环节,尤其是强化学习阶段,正变得日益复杂与关键。这不仅仅是模型参数规模膨胀的结果,更源于我们对智能体能力边界的持续拓展——从最初的文本对话交互,演进到图文音视频的全模态理解,直至具备自主决策与行动能力的智能体。传统的强化学习训练框架,在面对这种多模态、长序列

时间:2026-05-20 16:49
阿里推出开放式世界模型产品HappyOyster有哪些功能

阿里推出开放式世界模型产品HappyOyster有哪些功能

最近,AI生成视频领域的热度持续攀升。就在大家还在讨论Runway、Pika等工具的迭代时,一个来自国内大厂的新玩家,以一种截然不同的思路闯入了赛道。它不是简单地生成一段固定视频,而是创造了一个可以实时交互、持续演化的“活”的世界。这就是阿里巴巴ATH创新事业部推出的开放式世界模型产品——Happy

时间:2026-05-20 16:49
具身智能全球竞逐 RoboChallenge打造顶尖模型竞技平台

具身智能全球竞逐 RoboChallenge打造顶尖模型竞技平台

全球首个大规模具身智能真机评测平台RoboChallenge,通过数万次标准化真机测试与权威评测,已获得行业广泛认可,成为衡量具身智能模型物理实操能力的核心标准。 近日,该平台迎来新一轮生态扩容。星动纪元、极佳视界、地平线、光轮智能、生数科技、中移杭研、长虹、算力自由等8家领先企业正式入驻,覆盖从底

时间:2026-05-20 16:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程