当前位置: 首页
AI资讯
中山大学SpatialDreamer:复杂空间推理新SOTA,性能提升55%

中山大学SpatialDreamer:复杂空间推理新SOTA,性能提升55%

热心网友 时间:2025-12-20
转载


新智元报道

编辑:LRST

【新智元导读】中山大学等机构最新推出的SpatialDreamer,通过整合主动心理想象与空间推理,在复杂空间任务中展现了显著的性能提升。该框架模拟人类主动探索、想象和推理的过程,有效克服了现有模型在视角变换等任务中的局限性,为人工智能在空间智能领域的发展开辟了新的路径。

尽管多模态大语言模型在场景理解方面已取得了显著进展,但在需要心理模拟的复杂空间推理任务上,其表现仍有不足。

现有方法多依赖于对空间数据的被动观察,未能融入人类在空间认知中特有的主动想象与动态更新内部表征的能力。

例如,在需要通过变换视角来判断遮挡物体位置的任务中,现有模型常因视角单一而导致推理失败。

为此,来自MBZUAI与中山大学的研究团队提出了SpatialDreamer。这是一个基于强化学习的框架,旨在通过“主动探索、视觉想象与证据融合”的闭环过程,赋予多模态大语言模型类人的空间心理模拟能力。


论文链接: https://arxiv.org/pdf/2512.07733


SpatialDreamer通过模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:

1) 探索:模型根据当前场景推理出最优的自我中心动作(例如“前进0.75米”或“左转45度”);

2) 想象:调用世界模型(如SVC)生成执行该动作后的新视角图像;

3) 推理:整合所有累积的视觉证据,生成最终答案。

这一过程使模型从“被动观察”转向“主动目标导向的想象”,实现了在内部三维环境中,自主决定“看向哪里、看什么、如何推理”的能力。

为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO。这是一种结合树状采样结构与几何一致性约束的策略优化方法:

1) 树状采样:每一步采样多个动作分支,支持回溯与多路径探索;

2) 多级奖励设计:融合任务级奖励与步骤级奖励,提供细粒度反馈;

3) 几何惩罚机制:对冗余或冲突动作(如连续同向或反向移动)施加惩罚系数(例如0.9),鼓励生成高效的行动轨迹。

GeoPO在提升模型性能的同时,也显著加快了训练收敛速度。


为引导模型学习“思考-想象-回答”的模式,研究人员构建了SpatialDreamer-SFT数据集,包含单轮推理数据以及反思式推理数据。其中反思式推理通过“错误注入 → 自我纠正 → 重建推理链”的流程构建。

实验结果

研究团队在多个空间推理基准上验证了SpatialDreamer的有效性:

1) SAT:在真实与合成图像中均达到SOTA水平,平均准确率分别为93.9%与92.5%;

2) MindCube-Tiny:整体准确率84.9%,较基线模型Qwen2.5-VL-7B提升超过55%;

3) VSI-Bench:在物体计数、相对方向、路径规划等任务中全面领先,平均准确率为62.2%。

总结

迈向具备空间想象能力的通用智能

SpatialDreamer的意义不仅在于提升了空间推理的准确率,更关键的是:它证明了多模态大语言模型可以通过“想象力”来增强推理能力,正朝着人类般的空间智能迈出重要一步。

参考资料:

https://arxiv.org/pdf/2512.07733

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


来源:https://www.163.com/dy/article/KH8D07M70511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱推出GLM-5 1高速版API,输出速度达400tokens s,刷新全球纪录。该模型将旗舰级能力与极致低延迟结合,用户无需为速度牺牲质量。其性能得益于与TileRT联合开发的静态编排高性能推理引擎,通过编译期优化、细粒度任务拆分与多卡协同,大幅减少数据搬运与调度开销。该服务适用于AI编程、实时交互等高延迟敏感场。

时间:2026-05-23 12:40
特朗普暂停AI行政令背后监管与竞争的博弈

特朗普暂停AI行政令背后监管与竞争的博弈

美国一项针对前沿AI模型的自愿安全测试行政令在签署前数小时被叫停。总统特朗普因担心监管阻碍技术领先地位而拒绝批准,凸显出美国在管控AI风险与维持竞争优势之间的政策矛盾。这一温和的自愿评估框架,仍在安全治理与竞争焦虑的拉扯中被暂时搁置。

时间:2026-05-23 12:40
OpenAI 2026年第一季度营收达57亿美元 领先Anthropic

OpenAI 2026年第一季度营收达57亿美元 领先Anthropic

OpenAI在2026年第一季度营收达57亿美元,较竞争对手Anthropic同期高出约10亿美元。其收入主要来自ChatGPT消费级产品,付费用户持续增长,但业务重心正转向企业服务。尽管营收亮眼,公司调整后营业利润率仍为负值,面临显著亏损。为应对竞争与盈利压力,OpenAI正加速推进上市进程,最早或于今年9月进行IPO。

时间:2026-05-23 12:40
马斯克AI助手Grok在美国政府遇冷使用率极低

马斯克AI助手Grok在美国政府遇冷使用率极低

马斯克旗下xAI的聊天机器人Grok在美国联邦政府市场遇冷。数据显示,在400多个政府AI应用案例中,Grok仅占三例,远落后于OpenAI等竞争对手。其低价策略未能推动普及,使用多限于基础任务。专家指出,这可能因模型难以满足政府安全需求,对SpaceX依赖AI业务的高估值构成挑战。

时间:2026-05-23 12:40
马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭

马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭

北京时间5月23日,SpaceX星舰V3火箭成功首飞并溅落印度洋。该火箭为史上最大最强,配备33台全新猛禽3发动机,运力超100吨,并集成在轨燃料加注系统。它已被选为NASA重返月球计划的载人着陆器,其成功标志着人类深空探索能力迈出重要一步。

时间:2026-05-23 12:37
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程