Meta团队揭秘：纯文本训练如何解锁大模型视觉理解新能力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

Meta团队揭秘：纯文本训练如何解锁大模型视觉理解新能力

热心网友时间：2025-10-28

转载

近期科学界有个引人瞩目的发现：那些仅通过文本数据训练的大型语言模型，在处理图像任务时展现出了超出预期的能力。这一现象迅速引发了学术界的广泛讨论，研究者们开始深入探寻其背后的运行逻辑。这些从未接触过图像数据的模型，在配置视觉编码器并经过少量多模态训练后，不仅能在常规视觉任务中表现优异，更有甚者能够完成从未见过的视觉推理任务。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

为了解开这个谜题，Meta人工智能实验室与牛津大学联合组建的研究团队展开了一系列系统性实验。他们精心设计了超过100个不同规模的模型架构，消耗了50万GPU小时的计算资源，系统测试了不同文本数据组合对模型性能的影响。实验结果表明，语言模型在纯文本训练中获得的视觉能力，实际上由两种独立技能构成：感知工具负责识别图像基本元素，推理工具则专门分析元素间的逻辑关系。

通过分析模型在四种视觉任务上的表现，研究人员发现通用视觉理解和文字识别任务存在显著相关性，反映出它们依赖同一种感知引擎。而知识密集型任务和视觉推理任务则依赖推理引擎，且这两个引擎间的关联性极弱。这意味着模型的基础视觉识别能力与视觉推理能力可以独立发展，颠覆了传统认知。

为验证推理能力的跨模态特性，研究团队让模型解释视觉问题的推理过程，并评估解释的逻辑严密性和深度。结果显示，当代码训练比例从0%增加到100%时，模型视觉推理解释的逻辑严密性从4.52%提升至9.52%，推理深度更是激增六倍多。接受大量代码训练的模型能够详细解释边界框判断标准，而未训练的模型只能给出简单答案。

在探索最佳数据配方的过程中，研究团队构建了24种不同比例的数据组合。实验发现，包含60%推理型内容和15%视觉描述内容的配方效果最佳。进一步实验表明，随着推理型内容比例增加，模型视觉能力逐步提升，而语言能力略有下降。其中，包含40%网络文本、35%代码和10%数学内容的mix6配方，在保持语言性能的同时实现了33.3%的视觉准确率。

感知能力的培养则呈现出不同特点。研究团队创建的多层次基准测试显示，在网络爬虫数据上训练的模型识别小到中等大小物体的能力最强。这归功于网络文本包含对各种视觉概念的丰富描述。实验还发现，仅用25%视觉描述文本训练的模型，在某些复杂视觉任务上的表现优于使用100%视觉文本训练的模型，表明单纯增加视觉描述比例未必能提升深层理解能力。

为验证理论发现的实际价值，研究团队训练了两个7B参数的大型模型，分别采用传统语言友好配方和平稳衡配方。结果显示，平衡配方模型在语言能力测试中的困惑度明显优于对照组，平均准确率也有所提升。在视觉任务测试中，平衡配方模型在知识密集型任务上的表现提升最为显著，验证了推理能力跨模态迁移的理论。

研究过程中还意外发现“盲视觉指令调优”现象。让模型在只有文本指令而无对应图像的情况下学习，再正常训练，可提升整体视觉性能。但这种提升源于模型利用问题线索和预训练知识进行推演，可能导致实际应用中产生幻觉。测试显示，多数先进AI系统在无图像情况下会“编造”答案，引发对当前AI评估方法的反思。

这项研究为柏拉图表征假说提供了实证支持。该假说认为，文本和图像是现实世界的不同投影，强大模型可从任何单一投影中学习底层结构。计算显示，接受更多结构化推理文本训练的语言模型，与视觉模型的表征相似性更高，且这种相似性与实际视觉任务表现一致。这表明智能可能存在普遍计算原理，反映现实世界本身的结构特征。

针对常见问题，研究团队给出解答：大语言模型的视觉先验由推理先验和感知先验构成，前者来自逻辑文本，后者源于视觉描述文本；代码训练能提升视觉推理能力，因其培养的逻辑思维能力可迁移；培养视觉能力的最佳数据配方包含约60%推理型文本和15%视觉描述文本。

来源:https://www.itbear.com.cn/html/2025-10/1000558.html

上一篇：手机圈AI激战正酣：端侧多模态崛起，生态构建成关键

下一篇： ServiceNow优化AI搜索难题：提升评分准确性与结果可靠性的关键策略