Meta团队揭秘:纯文本训练如何解锁大模型视觉理解新能力

近期科学界有个引人瞩目的发现:那些仅通过文本数据训练的大型语言模型,在处理图像任务时展现出了超出预期的能力。这一现象迅速引发了学术界的广泛讨论,研究者们开始深入探寻其背后的运行逻辑。这些从未接触过图像数据的模型,在配置视觉编码器并经过少量多模态训练后,不仅能在常规视觉任务中表现优异,更有甚者能够完成从未见过的视觉推理任务。
为了解开这个谜题,Meta人工智能实验室与牛津大学联合组建的研究团队展开了一系列系统性实验。他们精心设计了超过100个不同规模的模型架构,消耗了50万GPU小时的计算资源,系统测试了不同文本数据组合对模型性能的影响。实验结果表明,语言模型在纯文本训练中获得的视觉能力,实际上由两种独立技能构成:感知工具负责识别图像基本元素,推理工具则专门分析元素间的逻辑关系。
通过分析模型在四种视觉任务上的表现,研究人员发现通用视觉理解和文字识别任务存在显著相关性,反映出它们依赖同一种感知引擎。而知识密集型任务和视觉推理任务则依赖推理引擎,且这两个引擎间的关联性极弱。这意味着模型的基础视觉识别能力与视觉推理能力可以独立发展,颠覆了传统认知。
为验证推理能力的跨模态特性,研究团队让模型解释视觉问题的推理过程,并评估解释的逻辑严密性和深度。结果显示,当代码训练比例从0%增加到100%时,模型视觉推理解释的逻辑严密性从4.52%提升至9.52%,推理深度更是激增六倍多。接受大量代码训练的模型能够详细解释边界框判断标准,而未训练的模型只能给出简单答案。
在探索最佳数据配方的过程中,研究团队构建了24种不同比例的数据组合。实验发现,包含60%推理型内容和15%视觉描述内容的配方效果最佳。进一步实验表明,随着推理型内容比例增加,模型视觉能力逐步提升,而语言能力略有下降。其中,包含40%网络文本、35%代码和10%数学内容的mix6配方,在保持语言性能的同时实现了33.3%的视觉准确率。
感知能力的培养则呈现出不同特点。研究团队创建的多层次基准测试显示,在网络爬虫数据上训练的模型识别小到中等大小物体的能力最强。这归功于网络文本包含对各种视觉概念的丰富描述。实验还发现,仅用25%视觉描述文本训练的模型,在某些复杂视觉任务上的表现优于使用100%视觉文本训练的模型,表明单纯增加视觉描述比例未必能提升深层理解能力。
为验证理论发现的实际价值,研究团队训练了两个7B参数的大型模型,分别采用传统语言友好配方和平稳衡配方。结果显示,平衡配方模型在语言能力测试中的困惑度明显优于对照组,平均准确率也有所提升。在视觉任务测试中,平衡配方模型在知识密集型任务上的表现提升最为显著,验证了推理能力跨模态迁移的理论。
研究过程中还意外发现“盲视觉指令调优”现象。让模型在只有文本指令而无对应图像的情况下学习,再正常训练,可提升整体视觉性能。但这种提升源于模型利用问题线索和预训练知识进行推演,可能导致实际应用中产生幻觉。测试显示,多数先进AI系统在无图像情况下会“编造”答案,引发对当前AI评估方法的反思。
这项研究为柏拉图表征假说提供了实证支持。该假说认为,文本和图像是现实世界的不同投影,强大模型可从任何单一投影中学习底层结构。计算显示,接受更多结构化推理文本训练的语言模型,与视觉模型的表征相似性更高,且这种相似性与实际视觉任务表现一致。这表明智能可能存在普遍计算原理,反映现实世界本身的结构特征。
针对常见问题,研究团队给出解答:大语言模型的视觉先验由推理先验和感知先验构成,前者来自逻辑文本,后者源于视觉描述文本;代码训练能提升视觉推理能力,因其培养的逻辑思维能力可迁移;培养视觉能力的最佳数据配方包含约60%推理型文本和15%视觉描述文本。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
合肥小学引入仿生机器人“小安”,全球首例全尺寸助教
在合肥市师范附属小学的一堂科学教育课上,一位特殊的“助教”吸引了师生们的目光——全球首款进入课堂教学场景的全尺寸仿生机器人“小安”正式亮相。这款由合肥本土企业研发的机器人,以1 4米的拟人化形态登场
AI搜索偏好冷门网站?解析信息来源与呈现方式
自谷歌推出“AI概览”功能以来,公众逐渐发现,人工智能驱动的搜索结果与传统搜索引擎提供的链接列表存在显著差异。近期一项新研究通过量化分析,揭示了这种差异的具体表现:AI搜索引擎更倾向于引用访问量较低
东莞低空经济加速落地,百度智能云赋能产业一体化发展
在东莞市低空经济产业联盟供需对接会上,百度智能云携创新解决方案亮相,为低空经济高质量发展注入新动能。交通行业解决方案总监刘斌在论坛中发表主题演讲,系统阐释了“地空一体智能底座”的构建路径,通过技术融
赛默飞灵北合作:OpenAI以AI加速药物研发新突破
科技巨头在生物制药领域的布局再掀热潮。OpenAI与赛默飞世尔科技、灵北公司达成深度战略合作,标志着其进军生物医药领域迈出关键一步。此次合作被业界视为AI技术赋能药物研发的重要里程碑,涉及从基础研究
Thinking+Machines Lab突破:策略蒸馏让Qwen模型效果显著提升
近期,专注于人工智能研究的技术团队Thinking Machines Lab(TML)发布了一篇技术博客,详细阐述了其研发的“在策略蒸馏”训练方法。该方法通过融合强化学习的纠错机制与监督微调的密集反
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程








