浙江大学与腾讯合作研发三维视觉AI技术

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

浙江大学与腾讯合作研发三维视觉AI技术

热心网友时间：2026-05-24

转载

这项由浙江大学、腾讯混元大模型团队、香港科技大学及深圳湾区研究院联合完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.15876。

拿起手机拍张客厅照片，现在的AI助手能流畅地告诉你“左边有张棕色木质沙发，右边是台黑色电视机”——这种看图说话的本事，视觉语言大模型早已驾轻就熟。但如果你接着问“这张沙发离我有多远”，绝大多数AI的回答恐怕会让你哭笑不得，甚至不如你凭感觉瞎猜。问题出在哪？不是AI不够聪明，而是它压根没被训练过“感知”空间深度——它的眼睛只认得颜色和形状，却从没学会判断远近。

这个看似简单的问题，恰恰戳中了机器人、自动驾驶、增强现实等一系列前沿技术的核心痛点。上述联合研究正是为了打破这道壁垒，提出了一个名为DepthVLM的框架。它的目标很明确：让一个视觉语言模型同时掌握两种能力，既能像现在一样流畅地描述图片内容，又能像专业测量仪一样，精确给出画面中每个像素点到相机的实际距离，单位是真实的米。

打个比方，以前的AI像一位博学的博物馆导游，能滔滔不绝地讲解每件文物的历史，但若问他“那件青铜鼎放在第几层、离你多远”，他只能含糊其辞。而这项研究要做的，就是给这位导游配上一把精准的激光测距仪，关键是，这把“测距仪”几乎不占背包空间，也丝毫不影响他讲解的流畅度。

一、AI的“空间盲区”：为什么聪明的它连“远近”都搞不清

要理解这项研究的价值，得先弄明白现有AI在空间感知上为何如此“路痴”。

目前主流的视觉语言模型，从设计之初就被定位为“输入图片和文字，输出文字”的系统。图片经过图像编码器处理后，变成一堆抽象的数字符号，再和文字一起交给语言模型生成答案。整个训练过程只有一个目标：让输出的文字尽可能正确。这意味着，模型在学习中从未接触过“这个像素点对应真实世界多少米”这类信息，自然也就无法建立起对空间深度的认知。

研究团队做了一项颇具说服力的测试：即便是最先进的GPT-5.5，在他们设计的标准深度测试中，平均正确率也只有40%左右。换句话说，这个能写诗、解数学题、分析合同的超级AI，在判断照片中物体距离时，表现只比随机猜测好一点。而参数规模达320亿的Qwen3-VL-32B模型，平均正确率甚至只有21%，还不如一个“永远回答2米”的简单程序——后者靠蒙对室内近景，都能拿到15.7%的正确率。

另一方面，市面上确实存在一些专攻深度估计的“纯视觉模型”，比如DepthAnythingV3、UniDepthV2等。这些模型在测距任务上表现优异，但它们有个致命缺陷：只会测距，不会说话，无法回答“椅子是什么颜色”或“图中有几个人”这类问题。就像一把极其精准的卷尺，你只能用它量距离，没法跟它聊天。

在研究者看来，理想状态应该是合二为一：一个系统既能精准测距，又能自然对话，还能结合距离信息回答更复杂的空间问题，比如“画面里最近的障碍物是什么，离我有多近”。

二、“加装测距仪”：DepthVLM究竟是怎么工作的

为了实现这个目标，研究团队选择了一条务实而优雅的路径：不推倒重来，而是在现有的视觉语言模型架构上，“加装”一个轻量级的深度预测模块。

现有的视觉语言模型架构可以拆解为三部分。首先是图像编码器，负责将图片分析成一系列有意义的特征，类似于人眼将视觉信号初步传递给大脑。这部分通常采用视觉变换器（ViT）网络，对图像进行多层次分析：浅层捕捉边缘、颜色等低级细节，深层则理解物体的语义。其次是投影器，负责将图像特征转换成语言模型能理解的格式。最后是语言模型本身，接收处理后的特征和用户问题，生成文字回答。

DepthVLM的核心创新，是在这个成熟架构旁，并行接入了一个参数量仅3400万的“深度预测头”。这个模块的规模还不到整个40亿参数语言模型的1%，好比给一辆大货车加装了一个小巧的GPS天线，几乎不增加额外负担。

这个深度预测头的工作方式设计得很巧妙。它并非只从图像编码器的最终输出提取信息，而是同时“监听”编码器的多个中间层，以及语言模型处理完图像后的最终状态。具体来说，模型会从图像编码器的第5、11、17层（以40亿参数模型为例）各取一份特征，再加上语言模型对图像理解后的最终特征，共融合四份不同“深度”的信息。

为什么要这么做？这就像一位经验丰富的建筑师评估一栋建筑：他既要观察表面的材质纹理（对应浅层图像特征），也要理解内部的结构布局（对应深层语义特征），还得结合建筑在周边环境中的语境（对应语言模型的整体理解）。只有把这些维度的信息融合起来，才能做出最准确的判断。

这四份特征会经过一种名为“DPT风格”的机制进行融合处理。简单来说，就是将不同空间分辨率下的特征进行叠加融合——浅层特征保持较高的空间精度以保留细节，深层特征虽然精度较低但语义更丰富。最终，系统会生成一张覆盖输入图像每个像素的深度图，图上每个像素的数值就代表了该点到相机的实际距离（米）。整个过程在一次前向传播中完成，无需任何后续处理。

与此同时，原有的语言模型输出通道完全不受干扰，照常生成文字回答。因此，这个系统的输出是两条并行的流水线：一张完整的深度图，加上一段自然的文字回应。

三、“两步走”训练法：如何让新能力不破坏旧本领

光有架构还不够，训练策略同样关键。研究团队发现，如果直接将新加的深度预测头和整个模型一起训练，随机初始化的深度头会产生混乱的梯度信号，就像一个新手在专家团队里胡乱指挥，反而会干扰语言模型原本积累的强大理解能力。

为此，他们设计了一套两阶段的训练流程。

第一阶段是“独立培训”：先将整个语言模型“冻结”，只允许新加的深度预测头独自学习。这好比新员工入职后，先在一旁独立完成岗前培训，不打扰老员工的正常工作。此阶段使用大量带有真实深度标注的图像，让深度头学会基本的测距能力。训练采用的损失函数叫做“尺度不变对数损失（SILog）”，其核心在于不苛求每个绝对数值都精确无误，而是更看重相对距离关系的正确性，同时约束模型不产生系统性偏差。

第二阶段是“联合微调”：解除对语言模型的“冻结”，允许整个系统进行端到端的联合调整。此时的训练数据是深度估计数据和通用视觉问答数据的混合体，两个学习目标同时起作用——深度估计损失保证几何感知能力持续提升，视觉问答损失则确保语言理解能力不退步。值得注意的是，在第二阶段，图像编码器（ViT）依然保持冻结，只有语言模型和深度头共同参与训练。团队也尝试过解冻图像编码器，结果发现深度精度虽有微小提升，但通用多模态能力会明显下降，可谓得不偿失。

这套精心设计的训练策略效果显著。以40亿参数版本为例，在综合视觉问答能力测试MMBench-EN上，训练后的模型得分从原始的83.4分仅微降至82.9分，降幅不到1%；在文字识别测试OCRBench上，得分反而从817提升到了832；在考察模型幻觉的POPE测试上，也从89.8微升至89.9。换句话说，加装测距能力后，模型在原有问答任务上的表现几乎毫发无损，某些方面甚至还有所增强。

相比之下，此前一项名为DepthLM的研究采用了截然不同的思路——它将深度估计完全变成了一个文字任务，要求模型用文字数字回答每个像素的深度值。这种做法导致模型养成了“无论问什么都先输出一个深度数字”的坏习惯，彻底丧失了正常的视觉问答能力，在标准测试中直接崩溃。

四、消除“相机歧义”：为什么不同相机拍的同一场景需要特殊处理

将来自不同数据集的深度数据混合训练，还面临一个容易被忽视却非常棘手的问题：不同相机拥有不同的焦距。

焦距的概念可以用望远镜来类比。用10倍望远镜看，100米外的树木看起来只有10米远；换回普通镜头，同样的树木看起来就在100米外。如果把用广角镜头（短焦距）和长焦镜头（长焦距）拍摄的照片混在一起训练，模型就会陷入矛盾：两张看起来“景物大小差不多”的照片，标注的实际距离可能相差数倍，导致模型无所适从。

研究团队的解决方案是“焦距归一化”：在将图像送入模型之前，先根据每张图片的真实焦距，将其缩放到一个统一的虚拟焦距（实验发现1000mm效果最佳）。这就好比把所有人的照片都在同样的距离、用同样的镜头重新拍摄一遍，然后再进行比较。图像缩放的同时，对应的深度标注也进行同比例调整，确保物理意义上的一致性。

团队测试了800、1000、1200三个不同的目标焦距。结果显示，焦距过小（800）会导致图像被压缩，损失细节；焦距过大（1200）则在插值放大时引入模糊。1000mm是一个“甜蜜点”，在所有测试数据集上都取得了最佳平均表现。与完全不做焦距归一化的对照组相比，归一化后，在Waymo数据集上的正确率从80.2%提升到87.9%，在IBims-1数据集上从63.0%大幅提升至91.2%。

五、训练数据与评测标准：建立一把公平的“量尺”

除了方法本身，这项研究另一项有价值的工作是建立了一个标准化的训练和评测基准，名为DepthVLM-Bench。

数据准备方面，团队整合了8个公开数据集，包括ScanNet++、Taskonomy等室内场景，以及Argoverse2、Waymo等自动驾驶室外场景。通过对视频数据进行均匀采样以去除重复帧，最终构建了约440万张图像的训练集。值得注意的是，像DepthAnythingV3这类纯视觉模型往往需要超过20个数据集加上大量合成数据才能达到类似效果，而DepthVLM仅用了不到其十分之一的数据量就取得了相当甚至更好的成绩。

评测体系方面，团队从9个与训练集完全不重叠的数据集中各采样约1000张图像作为测试集，涵盖室内、室外及混合场景。评测指标采用δ?准确率，即预测深度与真实深度之比落在0.8到1.25之间的像素占比。这个指标既不苛求绝对精确，又具有实际意义，非常适合跨场景的综合比较。

为了公平地评测那些原本未被训练做深度估计的通用视觉语言模型，团队设计了一套标准化提示方法：在图片上用红色箭头标出要查询的像素位置，然后询问模型“这个箭头指向的点距相机的实际距离是多少米，只回答数字”。测试发现，5像素的小箭头太不起眼，许多模型会回答“图中没有箭头”，因此最终统一使用20像素的大箭头，确保评测考察的是深度理解能力，而非标记检测能力。

六、实验结果：数字背后的实际意义

在与其他视觉语言模型的横向比较中，DepthVLM-4B（40亿参数）取得了平均δ?准确率0.868的成绩，DepthVLM-8B（80亿参数）进一步提升至0.876。作为对比，最强的通用视觉语言模型GPT-5.5仅为0.407，Qwen3-VL-32B只有0.210。而此前专门做深度估计的视觉语言模型DepthLM-12B（参数规模是DepthVLM-4B的三倍）为0.730，Youtu-VL-4B为0.603。

与专业的纯视觉深度估计模型相比，DepthVLM同样表现抢眼。在5个公开测试集的综合均值上，DepthVLM-4B达到0.884，DepthVLM-8B达到0.890。而最强的纯视觉竞争者DepthAnythingV3为0.877，UniDepthV2为0.823，Metric3Dv2为0.812。这意味着，这个“顺便会测距”的多功能模型，在深度估计这项专项任务上，已经超越了绝大多数“只会测距”的专业工具。

在推理速度上，差异更为悬殊。对于一张256×192像素的图片，DepthLM需要对每个像素单独查询一次，总耗时约13小时；Youtu-VL通过预测稀疏补丁网格再插值放大，耗时2.48秒；而DepthVLM在一次前向传播中直接输出像素级深度图，仅需0.42秒，速度是Youtu-VL的六倍，比DepthLM快了几个数量级。

研究团队还测试了模型在更高层次空间推理任务上的能力，包括判断精确深度、计算物体间最短距离、排列物体远近顺序、估计三维尺寸等。结果显示，DepthVLM在这些任务上的表现均明显优于GPT-5.5。例如，在一个测试案例中，路面车辆与右侧黄色绕行标志的真实距离为4.3米，GPT-5.5回答11.2米，而DepthVLM回答4.5米。这说明，获得了真实空间感知能力的模型，在需要结合视觉与空间逻辑的推理问题上，能给出更贴近现实的答案。

七、消融实验：每个设计选择为何重要

研究团队通过系统性的消融实验，逐一验证了每个关键设计决策的必要性。

关于深度预测头的结构，他们比较了四种方案。最简单的两层全连接网络（MLP）不使用多尺度特征，平均δ?只有0.5左右；加入多尺度特征后提升到0.72-0.81；采用原始DPT头（会对语言模型的图像特征进行降采样）能达到0.85-0.89；而他们设计的轻量化DPT头（保留原分辨率，通过上采样构建由浅到深的特征金字塔）在所有测试集上都取得了最佳成绩。这证明，针对视觉语言模型特征结构进行的专门设计是有价值的。

关于特征来源的选择，他们比较了四种组合。最终，“图像编码器多层特征 + 语言模型最终特征（双阶段训练）”这一组合在所有数据集上表现最好。这说明，图像编码器提供的细粒度几何特征，与语言模型对图文整体理解的上下文特征是互补的，缺少任何一方都会影响最终精度。

说到底，DepthVLM这项研究用一个相当简洁的思路，解决了一个长期被认为需要复杂系统才能应对的难题：让视觉语言模型真正“看懂”空间。它的核心贡献并非发明了某种前所未有的算法，而是找到了一条代价极低、效果出众的路径——用不到1%的额外参数，通过两阶段的精心训练，将深度感知这个全新能力无缝嫁接到现有模型上，且几乎无损其原有的强大问答能力。

对普通用户而言，这项技术意味着未来的AI助手或许真能在你问“沙发有多远”时给出精确答案，也能在“帮我看看路上最近的障碍物在哪”这类问题上提供有实际参考价值的空间描述。对自动驾驶、机器人导航、增强现实等领域来说，一个能同时理解语义和几何的统一模型，将比目前依赖多个模块协作的系统更加简洁、鲁棒。

当然，研究团队也指出，当前工作仅聚焦于单张图片的密集深度估计，尚未扩展到三维目标检测、位姿估计等更广泛的感知任务，这些将是未来自然的延伸方向。