中山大学SpatialDreamer:复杂空间推理新SOTA,性能提升55%

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】中山大学等机构最新推出的SpatialDreamer,通过整合主动心理想象与空间推理,在复杂空间任务中展现了显著的性能提升。该框架模拟人类主动探索、想象和推理的过程,有效克服了现有模型在视角变换等任务中的局限性,为人工智能在空间智能领域的发展开辟了新的路径。
尽管多模态大语言模型在场景理解方面已取得了显著进展,但在需要心理模拟的复杂空间推理任务上,其表现仍有不足。
现有方法多依赖于对空间数据的被动观察,未能融入人类在空间认知中特有的主动想象与动态更新内部表征的能力。
例如,在需要通过变换视角来判断遮挡物体位置的任务中,现有模型常因视角单一而导致推理失败。
为此,来自MBZUAI与中山大学的研究团队提出了SpatialDreamer。这是一个基于强化学习的框架,旨在通过“主动探索、视觉想象与证据融合”的闭环过程,赋予多模态大语言模型类人的空间心理模拟能力。

论文链接: https://arxiv.org/pdf/2512.07733

SpatialDreamer通过模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:
1) 探索:模型根据当前场景推理出最优的自我中心动作(例如“前进0.75米”或“左转45度”);
2) 想象:调用世界模型(如SVC)生成执行该动作后的新视角图像;
3) 推理:整合所有累积的视觉证据,生成最终答案。
这一过程使模型从“被动观察”转向“主动目标导向的想象”,实现了在内部三维环境中,自主决定“看向哪里、看什么、如何推理”的能力。
为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO。这是一种结合树状采样结构与几何一致性约束的策略优化方法:
1) 树状采样:每一步采样多个动作分支,支持回溯与多路径探索;
2) 多级奖励设计:融合任务级奖励与步骤级奖励,提供细粒度反馈;
3) 几何惩罚机制:对冗余或冲突动作(如连续同向或反向移动)施加惩罚系数(例如0.9),鼓励生成高效的行动轨迹。
GeoPO在提升模型性能的同时,也显著加快了训练收敛速度。

为引导模型学习“思考-想象-回答”的模式,研究人员构建了SpatialDreamer-SFT数据集,包含单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的流程构建。
实验结果
研究团队在多个空间推理基准上验证了SpatialDreamer的有效性:
1) SAT:在真实与合成图像中均达到SOTA水平,平均准确率分别为93.9%与92.5%;
2) MindCube-Tiny:整体准确率84.9%,较基线模型Qwen2.5-VL-7B提升超过55%;
3) VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率为62.2%。
总结
迈向具备空间想象能力的通用智能
SpatialDreamer的意义不仅在于提升了空间推理的准确率,更关键的是:它证明了多模态大语言模型可以通过“想象力”来增强推理能力,正朝着人类般的空间智能迈出重要一步。
参考资料:
https://arxiv.org/pdf/2512.07733
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
红果短剧用AI偷脸引争议,素人被侵权如何维权
鞭牛士3月31日消息,话题“AI短剧 偷脸”登上热搜。热搜起源为,有网友在社交网络平台发文称,自己此前拍摄的照片被红果短剧旗下作品《桃花簪》未经授权擅自使用,并通过AI技术进行了内容生成。据该网友描
线下机器人真机PK:这届黑客松玩法揭秘
梦瑶 发自 凹非寺量子位 | 公众号 QbitAI机器人Demo大家都见过,但具身智能真机同台PK、当场对线,谁看了不得瞪大眼?(震惊 jpg)这场超燃的具身模型真机对决比赛,就发生在这两天在深圳举
百度入局AI赛道:2024年11家领军企业最新盘点
智东西作者 程茜编辑 心缘智东西3月31日消息,昨日,中国联通发布2026年中国联通山东济南市行业客户智算一体机服务项目中标候选人公示,百度以2 9亿元中标。该项目于3月9日发布招标文件,采购内容包
京东直播新动作:刚需复杂指令与自由态数字人如何升级
编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪
玻色量子完成10亿元B轮融资,刷新行业融资纪录
2026年3月31日,“十五五”规划专用量子计算机赛道唯一代表企业——北京玻色量子科技有限公司(以下简称“玻色量子”)完成10亿元B轮融资。本轮融资由北京金控、工银资本、朝阳顺禧、招银国际、深投控和
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

