当前位置: 首页
AI
多校联合研发MILO模型,诊断大模型“视觉文盲”并注入空间想象力

多校联合研发MILO模型,诊断大模型“视觉文盲”并注入空间想象力

热心网友 时间:2025-12-05
转载

当前大多数方法依赖"语言描述式调优",即通过文本符号让模型学习空间概念,却从未真正"看见"这些概念在视觉上的表现,导致模型出现"视觉文盲"现象——生成回应时难以聚焦正确的视觉区域。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

大型模型总是难以把握空间维度,就像我们无法想象四维世界一样。

空间推理是人类理解三维世界结构的核心认知能力,也是多模态大语言模型在实际应用中的关键挑战。

现有技术主要通过语言指令让模型理解空间关系,但缺乏对视觉场景的直观认知。这使得模型在回答涉及空间方位的问题时,往往无法准确关联对应的视觉元素。

图片图片

如图所示,基线模型在回答关于"木椅"的问题时,其视觉注意力并未集中在目标区域,而是散落在无关区域。这反映出当前多模态大语言模型在空间语义与视觉感知之间缺乏跨模态对齐,难以像人类那样通过心理意象来支撑空间推理。

MILO:为模型植入"空间想象力"

为解决上述问题,由多所高校和研究机构组成的团队提出了MILO,一种隐式空间世界建模范式。该方法通过引入视觉生成反馈,将符号推理与感知经验隐式结合。

图片图片

1. 从"看到"到"想到"

MILO在传统语言调优的基础上,创新性地引入视觉生成调优,构建包含两个阶段的训练流程:

视觉生成调优阶段:模型接收几何变换指令,调用视觉扩散模型生成对应的新视角图像,从而学习空间变换在视觉上的表现;语言调优阶段:在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。

通过这种训练方式,MILO使模型能够内化几何变换的视觉表现,建立起类似人类的隐式空间世界模型。

2. 摆脱绝对坐标,学会相对感知

为了进一步增强模型的几何感知能力,研究团队提出了RePE,一种基于相机位姿变换的相对位置编码方案。

与传统的绝对坐标系编码不同,RePE不依赖于全局坐标系,而是捕捉相邻帧之间的相对变换,从而具备更好的泛化性与跨数据集适应性。

构建几何世界的"教科书"

研究团队构建了GeoGen数据集,这是一个包含约2,241个视频和26.7万个"观测-动作-结果"三元组的大规模几何感知生成数据集。GeoGen涵盖两类核心任务:

新视角合成:根据指令生成相机移动后的新视图;轨迹生成:根据起点和终点生成相机运动路径,要求模型理解场景的整体几何结构。

数据来源包括扫描的3D场景和互联网视频,确保了数据的多样性和真实性。

图片图片

五大任务全面验证

研究团队在多个基线模型和五大类空间理解任务上验证了MILO的有效性:

图片

3D场景理解任务:在ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D等基准上,MILO均取得最优性能,尤其在ScanRefer上Acc@0.25提升3.2%;空间推理任务:在VSI-Bench上平均准确率达61.7%,超越基线VG-LLM 2.2%;具身任务:在RefSpatial-Bench的三个子集上全面领先,尤其在未见组合关系任务上提升1.3%。

作者:Meng Cao, Haokun Lin, Haoyuan Li, Haoran Tang, Rongtao Xu, Dong An, Xue Liu, Ian Reid, Xiaodan Liang

单位:Mohamed bin Zayed University of Artificial Intelligence;Sun Yat-sen University;Peking University;Spatial-Temporal AI

论文:http://arxiv.org/pdf/2512.01821

来源:https://www.51cto.com/article/831215.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
优势智设

优势智设

优势智设是什么 如果你正在寻找一款能打通“设计概念-界面-代码”的智能工具,那今天聊的这款产品,或许值得你关注。它就是由杭州优势智设科技有限公司推出的UX AI工具——优势智设。简单来说,它的核心任务,就是利用AI技术,自动化生成产品设计风格、用户界面乃至前端代码。目标用户直指体验设计专家和产品开发

时间:2026-04-15 11:58
CorrectEnglish

CorrectEnglish

CorrectEnglish® Online Proofreading Tool是什么 当你撰写重要邮件或报告时,是否也曾为语法和用词纠结过?CorrectEnglish® Online Proofreading Tool 就是为此而生的得力助手。这款由同名公司开发的在线工具,核心使命是通过嵌入键盘

时间:2026-04-15 11:55
AllWrite

AllWrite

Effortless Emails:AI写作助手的产品介绍 在信息爆炸的今天,撰写一封得体的邮件或整理一份凝练的报告,往往要耗费大量精力。有没有一款工具能真正帮我们“减负”?今天要聊的Effortless Emails,就是为此而生。它由一支专业团队精心打造,核心目标很明确:利用先进的机器学习算法,

时间:2026-04-15 11:49
Article Idea Generator

Article Idea Generator

文章灵感生成器是什么 当你对着空白文档,脑袋也一片空白时,是不是特别希望有人能递给你一张“灵感清单”?文章灵感生成器(Article Idea Generator)扮演的正是这个角色。它本质上是一个由AI驱动的写作助手,目标很明确:帮内容创作者、博主甚至学生们,快速跨过“不知道写什么”这道坎。你只需

时间:2026-04-15 11:49
Simpler AI

Simpler AI

Simpler Write是什么 在写作工具层出不穷的今天,Simpler Write的出现提供了一种更轻巧的思路。这款由Simpler ai打造的产品,核心定位是成为一位“随叫随到”的写作助手。无论你是在为研究计划绞尽脑汁,还是想快速起草一篇博客、一封邮件,甚至是整理零散的笔记,它都能介入协助。其

时间:2026-04-15 11:47
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程