vivo半在线RL解决长链路AI训练崩溃 15k轨迹收敛
训练一个能自动操作手机的图形用户界面(GUI)智能体,听起来前景广阔,但实际落地时却始终卡在两个核心矛盾之间: 要么采用在线强化学习,交互成本高昂,长序列任务训练经常中途崩溃; 要么仅依赖离线数据训练,模型缺乏远见,多步操作中错误容易连锁放大。 为了破解这一困局,vivo AI Lab携手之江实验室
训练一个能自动操作手机的图形用户界面(GUI)智能体,听起来前景广阔,但实际落地时却始终卡在两个核心矛盾之间:
- 要么采用在线强化学习,交互成本高昂,长序列任务训练经常中途崩溃;
- 要么仅依赖离线数据训练,模型缺乏远见,多步操作中错误容易连锁放大。
为了破解这一困局,vivo AI Lab携手之江实验室、中国科学院大学杭州高等研究院,提出了一种创新方案——半在线强化学习框架SOLAR-RL。
该方案的设计思路十分巧妙:无需昂贵的在线环境交互,而是将全局轨迹信号直接“回填”到离线学习过程中。实验结果显示,在多个标准评测中,它仅用约10%的数据预算,就达到了与在线方法或SFT强基线相当甚至更优的效果。其最大优势在于:从根本上避免了长程强化学习训练中常见的“策略崩溃”问题。这项成果已被ACL2026会议接收。

研究背景:在线RL成本过高,离线RL视野受限
在长程GUI任务中应用强化学习,两条主流技术路线各有明显短板,难以相互替代:
- 在线RL:能够捕捉环境的真实动态反馈,这是其吸引力所在。然而,面对超过30步的长任务,交互成本急剧攀升,奖励信号稀疏且方差极大。往往在模型学到有效策略之前,训练过程就已经崩溃,即出现“训练崩溃”现象。
- 离线RL:这条路线相对安全,完全依赖静态数据训练,规避了在线交互的风险。但问题在于,它仅关注碎片化的“单步转移”,陷入了“时序短视”——缺乏长程规划所需的全局上下文信息。误差在长链条中层层累积,导致一步偏差引发后续连锁错误。
两条路线还面临一个共同的难题:信用分配问题(Credit Assignment Problem,CAP)。一条长轨迹运行到最后,系统仅返回一个“成功/失败”的二元信号。开发者无法判断究竟是哪一步推理起了关键作用,哪一步操作导致了失败。梯度因此变得稀疏且嘈杂,模型学习效果模糊不清。那么,有没有一种方法,既能保留离线训练的稳定性,又能弥补通常只有在线交互才能提供的轨迹级全局信号?SOLAR-RL正是针对这一“半在线”范式而设计的。

△三种强化学习范式对比。离线RL(左上)受限于碎片化的单步数据,存在“时序短视”问题;在线RL(右上)能捕捉动态反馈,但稳定性差且交互成本高;SOLAR-RL(下)通过轨迹重构与回溯性信用分配,将全局轨迹信息“回填”到离线数据中。
方法:在静态数据中模拟在线反馈机制
我们将GUI导航任务建模为部分可观测马尔可夫决策过程(POMDP)。SOLAR-RL的核心由两个关键组件构成。
- 离线轨迹重构(Offline Trajectory Reconstruction)
该组件实现了一个巧妙的设计:针对同一任务,它在每一步并行采样N条候选rollout,然后将相同索引的候选轨迹首尾相接,拼接成N条“重构轨迹”。这相当于将有限的静态数据,像变魔术一样扩展为一批多样化的“伪在线”探索数据。关键点在于:每条轨迹都按照逐步有效性(per-step validity)逐帧进行校验。一旦某步动作被判定为无效,轨迹就在该“首次失败点”被截断,丢弃后续所有步骤。判定规则严格清晰:坐标类动作使用高斯核度量,文本输入采用F1分数,应用启动依赖相似度阈值,系统类动作则使用精确匹配。这样一来,既剔除了低质量的偏差数据,又保留了探索的多样性。

△离线轨迹重构过程。每一步并行采样N条rollout,将相同索引的候选轨迹首尾相接,形成N条重构轨迹,生成用于训练的“伪在线”数据。
- 轨迹感知奖励塑形(Trajectory-Aware Reward Shaping)
这是SOLAR-RL的核心贡献。其目标是将“整条轨迹的执行质量”回溯性地拆解为稠密的步级奖励,从而解决棘手的信用分配问题。该机制包含三层设计:
- 失败点检测+前缀信用:每条重构轨迹都有一个首次失败步t*。只有t*之前的“有效前缀”才能获得正向奖励,而失败步及其之后的无效步,则会受到严厉惩罚。这相当于为模型提供了非常明确的纠错信号。
- 原子动作评分:通过一个细粒度的评分函数,将点击、滑动、输入等不同动作映射为0到1的连续质量分数。有效动作保留正分,无效动作则转化为负反馈。
- 目标对齐的奖励塑形:首先,根据轨迹的全局质量(综合任务完成度、当前轨迹长度与参考专家长度之比、逐步执行质量),动态确定一个“目标总回报”。然后,对长序列中的错误施加“长度感知”的动态惩罚,防止模型刷分。最后,将回报缺口均匀地重新分配到有效前缀的正向步上,使总回报与轨迹级质量严格对齐。
通过这一系列操作,SOLAR-RL在零环境交互的前提下,生成了稠密、稳定且与全局目标对齐的训练信号。这相当于在静态数据上,硬生生“模拟”出了在线反馈的效果。

△轨迹感知奖励塑形机制的三个阶段。(1)原始经验:失败轨迹仅在末端提供稀疏反馈,无法判断“从哪一步开始出错”;(2)失败点检测:根据逐步有效性定位首次崩溃步;(3)前缀信用分配:仅对崩溃前的有效步给予正向奖励,并惩罚所有无效步,从而生成稠密、稳定的长程训练信号。
实验结果
我们基于Qwen2.5-VL-7B-Instruct模型和verl框架,仅使用15k条高质量静态轨迹(约94k步)进行训练。每步采样N=8,温度设为1.0,在32张NVIDIA L40S上训练了650步,耗时约60小时。在三大基准上的评测结果如下。

△在Android Control(AC,Low/High)、GUI-Odyssey、AndroidWorld上的统一对比。TM=类型匹配,SR=步成功率/任务成功率;“—”表示原文未报告。
- 细粒度操控(Android Control)
在离线类方法中,SOLAR-RL在Low划分上取得了93.24%的TM和88.57%的SR。在更考验多步推理能力的High划分上,它以69.27%的SR拿下了离线类方法的最高分,超越了UI-Venus(68.61%)和AgentCPM(67.93%)。这表明,轨迹感知信用分配能够有效防止复杂任务中的推理能力退化。
- 长程跨应用导航(GUI-Odyssey)
在GUI-Odyssey这个以长链路和跨应用著称的基准上,SOLAR-RL取得了87.60%的TM。虽然AgentCPM在该指标上略高,但它使用了超过55k条轨迹——是本文(15k)的三倍多。这一对比,充分凸显了本方法在样本效率方面的巨大优势。
- 真实环境执行(AndroidWorld)
在最具挑战性的动态基准AndroidWorld上,SOLAR-RL取得了33.7%的SR,在离线类方法中排名第二。更值得关注的是,它在完全不进行在线交互的情况下,超过了使用145k轨迹的在线方法UI-TARS-7B-SFT(33.3%),而训练数据量仅为对手的10%左右。这揭示了一个重要道理:单纯堆砌数据规模并非提升性能的唯一途径,将学习信号“精炼”到位同样至关重要。
分析:训练更稳定,且学会“连续纠错”
- 告别长程训练中的策略崩溃
与强基线GRPO的对比最能说明问题。GRPO在训练早期有所提升,但大约在600步后,便出现典型的“策略崩溃”——奖励断崖式下滑,智能体陷入无效循环。而SOLAR-RL的平均动作奖励单调上升,最终稳定收敛在约0.75的更高水平。在“PressBack”(回退纠错)这类关键动作上,GRPO剧烈震荡,迟迟学不会“何时该后退”,SOLAR-RL则快速收敛到0.8以上的高精度,有效避免了导航死循环。在“超长(≥14步)”任务上,这种稳定性优势更加明显。

△训练过程中的平均动作奖励对比。GRPO(蓝色)在后期发生策略崩溃、奖励骤降,SOLAR-RL(橙色)则单调上升并稳定收敛于约0.75。
- 一个真实案例:长程任务拼的是连续纠错能力
论文中给出的一个训练案例极具代表性:在Simple SMS Messenger中执行“把刚发给Juan Alves的消息重新发一遍”这一任务。
轨迹一:智能体首先在会话列表里误用了长按操作(错误),但随后纠正过来,进入了正确的聊天页面(第一次纠错成功)。然而,当它发现“长按已发送消息”无效后,却未能切换到“重新输入并发送”的正确策略。最终,它被困在一个看似合理、实则走不通的行为中,任务宣告失败。
轨迹二:起始步骤几乎一模一样,但智能体完成了连续两次纠错。它先从会话列表切换到正确的聊天页面,然后果断放弃无效的长按操作,改为重新输入并发送,最终成功完成任务。
这个案例揭示了长程GUI任务的核心本质:成功不在于“一次都不犯错”,而在于“能否一错再纠、连续从次优状态中恢复过来”。这恰好印证了SOLAR-RL的设计初衷——失败点信用分配帮助模型定位轨迹从哪一步开始偏离,轨迹感知奖励塑形则抑制模型在失败后继续重复无效动作链,鼓励它放弃无效的局部行为,重新回到有效的决策路径上。
局限与未来方向
我们也需要坦诚地指出这条技术路线的边界以及下一步的研究方向。
首先,半在线机制受限于离线数据的覆盖范围。它无法感知分布之外的全新状态(例如未出现过的弹窗、延迟导致的界面变化)。它能“模拟”在线反馈,但并不能替代真实的环境交互。
其次,当前的有效性校验依赖真值标签。未来可以考虑替换为学习型验证器或奖励/评判模型,以便扩展到弱标注甚至无标注的GUI数据场景。
最后,目前的评测主要集中在移动(Android)环境。要将这种轨迹感知奖励塑形方法推广到动作更丰富的桌面操作系统与网页浏览器,还需要制定平台特定的有效性标准与基准。这些都是我们后续探索的方向。
论文标题:SOLAR-RL: Semi-Online Long-horizon Assignment Reinforcement Learning
论文地址:https://arxiv.org/abs/2604.22558
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:vivo半在线RL解决长链路AI训练崩溃 15k轨迹收敛要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
