中山大学SpatialDreamer推理效率提升55%,登顶复杂空间SOTA
【导读】中山大学等研究机构推出的SpatialDreamer,凭借其主动心理想象与空间推理能力,显著提升了AI在复杂空间任务中的表现。该技术通过模拟人类主动探索、想象和推理的认知过程,有效解决了现有模型在视角变换等任务中因视角单一而推理受限的困境,为人工智能的空间智能发展开辟了新方向。
尽管多模态大语言模型在场景理解方面已取得长足进步,但在需要心理模拟的复杂空间推理任务上,其表现仍有明显局限。
现有方法多依赖于对空间数据的被动观察,缺乏人类在空间认知中所特有的主动想象与动态更新内部表征的能力。
例如,在需要变换视角以判断遮挡物体位置的任务中,现有模型常因视角固定而推理失败。
为此,MBZUAI与中山大学的研究团队提出了SpatialDreamer,这是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力。

论文链接: https://arxiv.org/pdf/2512.07733

SpatialDreamer模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:
1) 探索:模型根据当前场景推理出最优的自我中心动作(如“前进0.75米”或“左转45度”);
2) 想象:调用世界模型生成执行动作后的新视角图像;
3) 推理:整合所有累积的视觉证据,生成最终答案。
该过程使模型从“被动观察”转向“主动目标导向的想象”,实现在内部三维环境中自主决定“去哪儿看、看什么、如何推理”。
为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO,一种结合树状采样结构与几何一致性约束的策略优化方法:
1) 树状采样:每步采样多个动作分支,支持回溯与多路径探索;
2) 多级奖励设计:融合任务级奖励与步级奖励,提供细粒度反馈;
3) 几何惩罚机制:对冗余或冲突动作施加惩罚系数,鼓励高效轨迹生成。
GeoPO在提升模型性能的同时,也显著加快了训练收敛速度。

为进一步引导模型学习“思考-想象-回答”的模式,团队构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的方式构建。
实验结果
研究团队在多个空间推理基准上验证了SpatialDreamer的有效性:
1) SAT:在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5%;
2) MindCube-Tiny:整体准确率84.9%,较基线模型Qwen2.5-VL-7B提升超过55%;
3) VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率62.2%。
迈向具备空间想象能力的通用智能
SpatialDreamer的意义不仅在于提升空间推理准确率,更关键的是:它证明了MLLMs可以通过“想象力”增强推理能力,向人类般的空间智能迈出了重要一步。
参考资料:https://arxiv.org/pdf/2512.07733
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
特斯拉德州测试跑道曝光 Roadster新车发布时间引关注
近日,特斯拉得克萨斯州超级工厂的一项新基建进展引发行业关注:厂区外围正在加速建设一条全新的专用车辆测试跑道。从已披露的现场信息来看,这条跑道并非普通厂区道路,其整体规格与布局设计均指向更高阶、更专业的工程验证用途。 根据最新流出的航拍影像,该测试跑道目前已初具规模。其规划清晰,路面铺设与附属设施完备
手动挡汽车为何逐渐消失 驾驶环境变化让多数司机难以适应
你是否注意到,如今道路上手动挡车型的身影正逐渐稀少?在新车市场中,自动挡几乎已成为标准配置。许多人将其简单归结为“手动挡技术落后”,然而背后的原因,远比这更为复杂。 相比之下,自动挡的操作逻辑则直观许多。只需挂入D挡,车辆便能平稳起步与行驶,驾驶者完全无需关注离合器踏板与结合点。尤其在拥堵频繁的城市
苹果自研基带2026年启用 iPhone 18系列将全面搭载
苹果公司正加速推进其核心供应链的自主化战略,并已进入关键实施阶段。综合多方行业信息,苹果计划于2026年推出的iPhone 18系列所有机型,将全面搭载其自主研发的调制解调器芯片。此举标志着苹果将结束在手机核心通信组件上长期依赖外部供应商的历史。业界与消费者共同关注的核心在于:这一自研基带的集成,能
铠侠XG10旗舰固态硬盘发布PCIe Gen5性能再升级
2026年5月14日,全球领先的存储解决方案提供商铠侠(Kioxia)重磅推出了其新一代旗舰级固态硬盘——XG10系列。该产品专为追求极致性能的高端台式机、电竞主机及高性能笔记本电脑设计,其核心亮点在于率先采用了消费级SSD领域的尖端接口技术:PCIe 5 0(Gen5)。这一升级使得XG10的理论
辽宁烧机油免拆治理解决方案:司有普安全高效质保无忧
辽宁地区的车主朋友们,是否正为爱车烧机油的问题而烦恼?面对这个常见的发动机故障,许多人在维修决策上感到困惑:是选择风险与成本双高的传统拆解大修,还是尝试更为温和的免拆修复技术?近期,一种名为“动态治理”的解决方案在车主社群中备受关注,其核心理念颇具创新性——让修复过程在车辆日常行驶中自然完成,从而有
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

