复旦邱锡鹏团队提出上下文世界建模 VLA无需微调适应新环境

ICWM 是如何设计的?
与传统 VLA 模型相比,ICWM 的核心变革在于:它先根据交互上下文推断当前系统配置,然后才生成后续动作。整个流程分为训练和推理两个阶段。 **训练阶段**:团队在每个任务样本之前拼接一段与任务无关的交互片段,作为上下文输入。模型通过观察交互带来的画面变化,推断当前系统的配置。值得关注的是,ICWM 并未单独构建一个独立的世界模型,而是直接利用 VLA 主干网络处理这段交互历史。这种设计既简化了整体架构,又能使信息直接服务于动作预测。 **推理阶段**:机器人并不立即执行任务,而是先进行一轮主动探测——记录动作前后的观测变化,形成所谓的“交互上下文”。随后,模型将当前的上下文、画面以及任务指令一并作为输入,判断下一步应如何行动。 
图|ICWM 的训练与推理流程概览。
实验结果
团队在跨视角、真实机器人以及多种分布外扰动场景下均进行了实验。结果表明,ICWM 借助交互上下文大幅增强了对新环境的适应能力,并且展现出向语义变化和机器人形态变化等场景扩展的潜力。1. 仿真结果
在 LIBERO 仿真基准的跨视角实验中,ICWM 在已见视角和新视角下均优于基线方法。相比单纯依赖多视角训练的方法,它在已见视角下平均高出 8.1%,在新视角下平均高出 13.0%。即使直接将真实相机参数输入模型,其泛化表现依然不及 ICWM。在长时序任务中,ICWM 对累积误差的控制也更为出色。 
图|在 LIBERO 基准上,已见视角与未见视角的成功率(%)。
2. 真实机器人实验
在 UR5e 真实机器人平台上,ICWM 同样明显优于基线方法。团队采用了一套 12 相机的多视角系统进行评估,任务涵盖堆叠、抓取、拾取、放置等操作。标准 VLA 对视角变化极为敏感——从训练视角切换到测试视角后,平均成功率从 68% 骤降至 17%,而 ICWM 的表现则稳定得多。 
图|在 UR5e 平台上的真实世界评测。
定性结果同样引人注目:切换到新环境后,普通模型容易出现位置偏移、夹爪过早闭合等问题,而 ICWM 则基本保持稳定。 
图|定性对比。
3. 消融与分析
消融实验证实,ICWM 的性能提升确实源于交互上下文,而非简单的模式匹配。去除图像信息后,模型表现下降最为严重——平均成功率从 25.0% 降至 10.9%;去除动作信息或不提供交互上下文,模型表现也会下降。更有趣的是,如果输入一段错误的上下文,模型表现甚至比没有上下文时更差。对照实验还表明,模型必须经过专门训练才能利用交互上下文适应环境;否则,即便在测试时提供相同信息,性能也几乎为零。 
图|交互上下文消融实验。
从可视化结果来看,模型已经能够区分不同视角和配置:相同视角下的数据分布更加集中,不同视角之间的区分也更清晰。 
图|不同分布外(OOD)视角下的 Ψ(T) 的 t-SNE 可视化。
团队还发现,ICWM 的效果并不依赖于某一种特定的探测方式。无论是采用随机探测,还是仅沿 XY、Z 或旋转方向运动,ICWM 均稳定优于对照方法,成功率提升约 15% 到 27%。泛化实验也显示,ICWM 对机器人形态变化具有较强的适应性,在语义扰动场景下同样有一定提升。 
图|分布外(OOD)视角下,不同探测策略的成功率(%)。

图|对语义场景变化和机器人形态变化的鲁棒性。
不足与未来方向
ICWM 虽然显著提升了 VLA 在新环境中的适应能力,但团队也指出了几个局限性。 首先是极端视角问题。在部分极端视角条件下,ICWM 的性能提升仍然有限。原因是这些视角往往伴随着更严重的遮挡,操作目标在执行过程中也更容易短暂移出相机视野。后续需要结合多视角感知、主动视角调整以及更强的遮挡建模能力来突破。 其次是语义扰动场景。目前 ICWM 在这类场景下的提升仍比较有限——训练数据中的场景语义和组合配置还不够丰富。如果能进一步扩充场景语义和组合配置更丰富的训练数据,ICWM 在语义扰动场景中的表现有望继续提升。 更多技术细节,详见原论文。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。
苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面
苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。
纳睿雷达推出睿宸超精细化短时临近AI气象大模型
纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达
南航国际创新港一期交付 四大专业园区打造空天产业强磁场
近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:52
2026-07-03 12:52
2026-07-03 12:52
2026-07-03 12:52
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

