卡内基梅隆大学联合多所高校推出多模态AI统一评测基准

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

卡内基梅隆大学联合多所高校推出多模态AI统一评测基准

热心网友时间：2026-05-15

转载

这项由卡内基梅隆大学、威廉与玛丽学院、奥本大学和威斯康星大学麦迪逊分校联合开展的研究，于2026年4月发表，论文编号为arXiv:2604.10784。

卡内基梅隆大学等顶尖高校联手打造：多模态AI模型的

如果你最近关注过人工智能领域的进展，一定对各类“多面手”AI不陌生——它们既能看懂图片，又能生成文字，甚至还能帮你编辑图像。学术界将这类系统称为“统一多模态模型”（Unified Multimodal Models, UMM），无疑是当前最炙手可热的研究方向之一。然而，这个领域长期存在一个令人头疼的难题：各家研究团队开发出新模型后，往往使用自己的一套标准进行测试。这就好比不同学校的老师各自出题、各自评分，你很难判断A校的尖子生和B校的优等生，究竟谁的综合实力更强。

而这项研究的核心贡献，正是为这个“乱象”画上了句号——它构建了一个名为TorchUMM的“统一考场”。这是业界首个能够将不同架构的多模态AI模型置于同一套标准下进行公平评测的工具箱。它不仅支持性能评估，还能深入分析模型的行为模式，甚至支持进一步的模型训练。研究团队利用这套工具，对十余个主流模型进行了全面“体检”，揭示了一系列此前未被系统记录的现象。其中最引人深思的发现是：那些在某个单项测试中表现优异的模型，很可能在另一个测试中“意外翻车”。

多模态AI的“乱考场”问题

让我们回到学校的比喻。假设你想比较两个孩子的学习水平，但他们的老师使用完全不同的试卷、评分标准，甚至考试形式也大相径庭——有的开卷，有的闭卷。在这种情况下，你拿到的成绩单几乎没有任何可比性。

这正是当前多模态AI评测领域的真实写照。研究团队在论文中指出，不同模型通常在各自独立的“考卷”上接受测试，评测流程、数据预处理方式乃至模型调用接口都存在差异。更棘手的是，当一个模型经过针对特定任务的额外训练（即“后训练”）后，其在某个测试上的分数提升，究竟是综合能力的真实进步，还是仅仅对特定题型的“应试技巧”？缺乏统一的框架，这个问题根本无法回答。

研究团队还发现了一个更深层次的问题：模型经过后训练后，可能在A任务上表现提升，却在B任务上性能悄然下降。就像一个学生为了数学竞赛拼命刷题，结果语文写作能力反而退步了。这种“此消彼长”的现象，在各自为政的评测体系下极易被忽视，因为研究者往往只关注自己汇报的那个指标。

正是为了根治这一顽疾，研究团队开发了TorchUMM。其设计理念可以概括为一句话：所有模型，面对同一套试题，遵循同一套评分规则，在完全相同的环境下进行考核。

TorchUMM是什么，它能做什么

TorchUMM的架构可以理解为一栋四层建筑。最底层是“基础设施层”，如同地基，提供了与PyTorch、Hugging Face等主流开发库的兼容接口，以及分布式训练、统一评分等核心功能。其上则是“核心功能层”，这里集成了三类关键模块：各类AI模型的适配接口、用于测试的数据集与基准，以及多种后训练方法。再往上是“任务执行层”，它提供了图像理解、图像生成、图像编辑三条独立的处理流水线，以及一条跨任务综合评测通道。最顶层是“应用接口层”，用户通过简单的命令行或Python代码即可调用全部功能，评测结果会自动生成详细报告。

目前，TorchUMM支持14个主流模型，参数规模从1.3亿的轻量级模型到340亿的大型模型不等，架构类型涵盖了纯自回归、纯扩散以及混合架构。这些模型包括Bagel、OmniGen2、Emu3系列、Janus系列、Show-o系列、BLIP3-o、TokenFlow、DeepGen和MMaDA等。

在评测内容上，TorchUMM整合了12套基准数据集，全面覆盖三大核心能力维度：图像理解方面，包含MMMU（跨学科专业知识推理）、MMBench（全面多选题）、MME（感知与认知分离测试）、MM-Vet（复杂开放式推理）和MathVista（数学图表推理）。图像生成方面，包含DPG-Bench（细节保真度）、GenEval（组合生成）和WISE（世界知识融合）。图像编辑方面，包含GEdit-Bench（精细属性修改，含中英文版）和ImgEdit（单轮与多轮编辑一致性）。此外，还有两套跨任务综合基准：UEval和Uni-MMMU，专门考察模型在需要同时调用理解与生成能力的复杂任务上的表现。

在后训练支持上，TorchUMM整合了五种主流方法：标准监督微调（SFT）、交叉推理生成（IRG）、统一思维链推理（UniCoT）、重建对齐（RecA）以及自我博弈训练（UniGame）。

图像生成能力大测评：没有全能冠军

研究团队将14个模型置于同一评测流水线下，得到了一些颇有意思的结果。

先说图像生成。DeepGen在GenEval基准上拿到了86.59的最高分，这项测试要求模型根据如“两只猫坐在红色椅子上”的指令生成图像，考验的是组合多个要素的能力。然而，DeepGen完全不具备图像理解能力，它只擅长“画”，不会“看”。Emu3.5则在WISE测试上遥遥领先，得分0.633，而最低分的Janus只有0.222，差距近三倍。WISE考察的是模型能否将涉及文化、地理、科学等世界知识的文字描述转化为正确图像，这个巨大分差表明，不同模型在“知识可视化”能力上存在天壤之别。

另一个有趣的发现是，OmniGen2和Bagel在DPG-Bench（细节保真度）上的得分非常接近，分别为84.51和84.11，说明两者在生成精细内容时能力相当。而仅有40亿参数的BLIP3-o，在GenEval上取得了81.36分，超过了70亿参数的Janus-Pro（78.92分）。这再次印证了一个观点：模型参数大小并非决定能力的唯一因素，架构设计与训练数据质量往往更具决定性。

图像理解能力大测评：感知强不代表推理强

在图像理解评测中，Bagel以全面领先的姿态拿下了几乎所有指标的第一名。在MME的感知分（识别图中物体、文字等基础内容）上，Bagel拿到1691.5分；在认知分（根据图像进行推理判断）上，Bagel拿到695.4分，而多数竞争对手的认知分还不到其一半。在MMMU、MMBench、MM-Vet和MathVista上，Bagel同样拔得头筹。

然而，这里暴露了一个关键现象：感知能力强，并不等同于推理能力强。以Janus-Pro为例，其感知分高达1547.9，排名靠前，但认知分仅有293.2，几乎垫底。这就好比一个学生视力极佳，能看清黑板上的每一个字，却无法理解这些字连成句子后的含义。这种“看得清，想不明”的模式在多个模型上均有体现，说明在当前架构中，视觉感知能力与高阶推理能力很可能是两个相对独立的模块。

更有意思的是理解与生成能力之间的张力。Emu3.5在图像生成的WISE测试上遥遥领先，却在图像理解的MME感知分上只拿到781.1分，是所有具备理解能力的模型中的最低分。这暗示着，当一个模型的架构和训练目标主要针对生成任务优化时，其理解图像细节的能力可能会受到牵连。相比之下，Bagel和OmniGen2在两个方向上保持了相对均衡的水平，堪称“全能型选手”。

图像编辑能力大测评：改得对和改得好是两回事

图像编辑是三项任务中最复杂的一项，要求模型同时具备理解原图、解析文字指令、并生成符合指令且风格连贯的新图像的能力。研究团队仅测试了原生支持编辑的模型，包括DeepGen、Bagel、OmniGen2和Emu3.5。

Emu3.5在编辑任务上表现最为全面，在GEdit-Bench（中英文版）和ImgEdit（含单轮与多轮编辑）上均获最高分。特别是在多轮编辑任务（模拟用户连续发出多次修改指令）中，Emu3.5的优势更加明显：得分4.89，高于Bagel的4.45和OmniGen2的3.27。这说明Emu3.5在处理连续对话式编辑时，拥有更强的状态追踪与连贯性维持能力。

分析中还发现了一个贯穿多个模型的共同弱点：语义正确性（是否准确执行了修改要求）与感知质量（图像是否美观、真实）是两个可以相互独立的维度。以OmniGen2为例，其感知质量分高达7.18，但语义正确性分只有6.49，差距显著。这就好比一位装修师傅，活干得漂亮，墙面光滑平整，但你要求把白墙刷成蓝色，他却刷成了绿色——结果好看，但不对。当前多数模型似乎更擅长维持视觉质量，而在精准执行语义修改指令上存在明显短板。

跨语言表现方面，DeepGen和Emu3.5在中英文指令下的表现基本一致，说明其多语言指令理解能力较为稳健。OmniGen2在中文语义正确性上（6.25）比英文（6.49）有明显下滑，表明其在中文指令对齐上尚有不足。Bagel则在中文测试上略有提升，研究团队推测这可能与其训练数据中中文内容的比例有关。

跨任务综合评测：现有模型的集体“盲区”

UEval和Uni-MMMU是两套专为“真正统一”的多模态模型设计的评测基准，考察那些需要模型同时动用理解和生成能力的复杂任务。

结果相当出人意料——即便是Bagel这样在单项测试中表现最强的模型，在某些跨任务题目上也几乎完全失灵。以迷宫图像生成为例（给定迷宫，要求生成对应的解法路径图），Bagel的得分仅为0.004，近乎为零。在滑动拼图（数字华容道）解题任务上，得分更是0.000。相比之下，Bagel在拼图重组（排列打乱的图像碎片）上得到0.660分，在科学图表推理上得到0.592分。这两类任务的共同点是，答案可以通过直接的视觉对应或语义推理得出，而不需要对中间状态进行逐步迭代操作。

这一对比揭示了当前多模态模型的一个根本性限制：它们在表示层面统一了视觉与语言，但缺乏对中间状态的显式追踪机制、逐步推理能力以及可控生成能力。简而言之，它们能把多种信息“塞进”同一个系统，但这个系统尚未学会“一步一步想清楚再行动”。

后训练实验：那些“教训”往往比进步更有价值

后训练是指在基础训练完成后，针对特定任务或能力进行的进一步优化。研究团队利用TorchUMM，对Bagel、Janus-Pro等多个模型分别应用了五种后训练方法，并在生成、理解、编辑三类任务上全面测评，得出了一系列具有警示意义的结论。

首先，最常用的监督微调（SFT）并非可靠的全面提升手段。在Bagel上，SFT将MMMU准确率从0.519小幅提升至0.526，但同时却使MMBench从0.843降至0.820，MM-Vet从65.9降至61.2，图像生成的WISE分数更是从0.399骤降至0.227。更极端的例子出现在TokenFlow上：SFT后，其DPG-Bench得分从71.29暴跌至22.16，而GenEval分数却几乎不变。Show-o2经过SFT后，三项生成基准指标全线下滑。这说明SFT极易导致模型在特定方向上“过度学习”，并以其他能力的退步为代价。

其次，同一种后训练方法在不同模型上的效果差异巨大，没有一种方法能稳定地在所有模型上带来全面改善。以IRG为例，在Bagel上，它不仅拉低了生成测试分数（GenEval从78.81降至72.06），还严重损害了理解能力（MMMU从0.519降至0.480），同时让跨任务评测的UEval分数从30.9跌至9.1。这种大规模、多方向的退步，在没有统一评测框架的情况下，很可能因发布者只汇报表现好的指标而被掩盖。

第三，不同能力维度对后训练的敏感度不同。图像生成能力最易受扰动：UniGame让Bagel的GenEval分数从78.81提升至85.8，但同时将其DPG-Bench分数从84.11拉低至65.77，呈现“此涨彼跌”且跌幅更大的局面。图像理解能力则相对稳定，各种后训练方法对MMMU分数的影响通常在几个百分点内。图像编辑能力的变化则显得“混沌”——RecA和UniCoT在GEdit上有小幅改善，IRG则带来明显退步，没有一种方法能稳定地推动编辑能力全面提升。

这些发现共同指向一个核心观点：在对多模态模型进行后训练时，如果只盯着少数几个测试指标，极易被误导，误以为某种方法带来了整体能力提升，而实际上可能只是换了一种“偏科”方式。

架构统一程度越高，能力就越强吗？

研究团队专门设计了实验来验证这个直觉上似乎成立的假设，结果却打破了这一预期。

被选取对比的三个模型是MMaDA、Show-o2和OmniGen2，它们在“架构统一程度”上呈现明显的梯度差异。MMaDA统一程度最高，将文本和图像都处理为同一种标记序列，在同一个扩散语言模型框架内完成所有任务，理论上是最“纯粹”的统一模型。Show-o2居中，保留了统一的标记空间，但文本和图像的生成过程走不同的“出口”。OmniGen2统一程度最低，采用一个视觉语言模型理解输入，再驱动一个独立的视觉生成器输出图像，属于模块化设计。

如果“统一程度越高能力越强”的假设成立，那么表现排序应是MMaDA > Show-o2 > OmniGen2。但实际结果恰恰相反。在UEval的两个典型任务上——一个是生成“如何画卡通狗”的分步骤教程图，另一个是生成Transformer神经网络架构图——OmniGen2是三者中唯一能认真尝试并完成任务的模型，得分也最高。在第一个任务上，OmniGen2得0.79分，Show-o2得0.46分，MMaDA仅得0.29分。在第二个任务上，三者都表现挣扎，但OmniGen2给出了一个勉强可辨的结构图（0.13分），Show-o2得0.07分，MMaDA则完全没有有效输出（0.00分）。

研究团队在解释时非常谨慎，明确指出这一结果不能简单理解为“统一架构是坏的”。这三个模型不仅架构统一程度不同，它们所继承的基础模型、使用的训练数据和优化流程也各不相同。MMaDA基于LLaDA-8B构建，Show-o2继承自Qwen2.5-7B-Instruct，OmniGen2继承自Qwen2.5-3B-Instruct。这些基础差异本身就会导致能力差距。真正值得注意的教训是：架构统一程度作为一个特征，其实际效果目前仍被诸多其他因素所掩盖，不能单独作为评价模型优劣的可靠依据。

统一训练对模型“底色”的改变

研究团队还进行了一项更深入的分析：当一个多模态模型从一个强大的基础模型初始化，并经过联合多模态训练后，原基础模型的行为特征还保留了多少？

研究方法如下：从MathVista基准中选取200个问题，利用另一个大语言模型为每道题生成两个语义相同但措辞不同的变体，从而每个问题都有三个版本。然后让目标模型分别回答这三个版本，将答案转换为向量后计算其相似度——如果模型对语义相同但表述不同的问题给出差异很大的答案，说明其理解不够稳定；如果答案高度一致，则说明其理解能力比较鲁棒。同时，研究团队还深入模型内部，每隔五层提取一次中间状态，观察模型“思考过程”的一致性。

对比了两对模型组合：统一程度较低的OmniGen2及其基础模型Qwen2.5-VL-3B-Instruct，以及统一程度较高的Show-o2及其基础模型Qwen2.5-VL-7B-Instruct。

结果是：OmniGen2的答案一致性分布及其内部状态轨迹，与其基础模型几乎完全重叠。这意味着，OmniGen2的联合训练对原基础模型的行为影响微乎其微，其“底色”被完整保留了下来。Show-o2则不同：它的基础模型Qwen2.5-VL-7B-Instruct具有非常稳定、高度一致的答案分布，而Show-o2自身的一致性分布则要宽散得多，表明相同问题换种说法，它更容易给出不同答案；在内部状态上，Show-o2也明显偏离了基础模型的轨迹，起点更低，中间层的一致性也更差。

这一发现揭示了统一训练可能带来的一个隐蔽代价：越是激进地将多种任务捆绑在一起训练，越可能干扰模型原有的稳定能力。适度的模块化设计，或许是在保留原有能力的同时扩展多模态能力的更稳妥路径。而完全融合的统一训练若要发挥其理论优势，则需要足够强大的数据和优化策略来抵消跨任务干扰带来的负面影响。

TorchUMM的工程设计：如何让不同的模型“说同一种语言”

在工程实现上，TorchUMM的核心抽象是一个名为BackboneAdapter的协议接口。每一个被支持的模型，无论其内部架构多么复杂，都必须实现三个基本方法：加载模型权重、执行推理生成、以及提供模型标识符。这就好比无论什么品牌、什么功能的电器，只要插头符合标准，就能接入同一个插座。

在配置系统方面，TorchUMM采用三层YAML配置文件设计。推理配置负责指定模型路径和生成参数（如扩散步数、引导强度等）；评测配置负责将模型与测试基准绑定，指定输出目录和评分方式；后训练配置则定义训练方法、优化器设置和检查点保存频率。切换模型进行测试时，用户只需修改配置文件中的模型名称和路径，无需改动任何代码。

在执行流程上，TorchUMM将整个过程分为推理、评测和后训练三个阶段。推理阶段负责将用户输入（图像、文本、任务类型）标准化为统一格式，并分发给对应的任务处理器。评测阶段通过命令行工具调用，自动加载配置、迭代数据集并保存结构化输出，双阶段评测（先生成后评分）也以轻量包装器的形式原生支持。后训练阶段的代码与评测代码完全隔离，训练完成的检查点只需修改评测配置中的模型路径即可直接测试，实现无缝衔接。

在扩展性方面，添加新模型只需实现一个适配器子类并注册；添加新测试基准只需实现数据处理和评分脚本；添加新后训练方法也只需在指定目录下实现训练逻辑并注册入口。这三项扩展均无需触及框架的核心代码。

结语

归根结底，TorchUMM这项工作的价值远不止于提供了一个测试工具。它更系统性地揭示了一个被整个领域长期忽视的问题：当我们宣称某种新方法提升了多模态AI的能力时，我们是否进行了全面、公正的测量？单项成绩亮眼而整体能力悄然退步的现象，在此次研究中间出现频率之高，足以让整个社区停下来重新审视现有评测方式的可靠性。

这对普通用户的影响或许不那么直接，但对于那些依赖AI模型进行关键决策的场景而言，意义重大。一个在某项指标上表现优异却在其他维度存在隐性缺陷的模型，如果被当作“全面进步”的成果推向应用，可能会带来意想不到的风险。统一的评测框架并非锦上添花，而是确保研究进展真实、可靠的基础设施。

这项研究本身也留下了许多开放性问题，值得后续深入探索：统一程度更高的架构是否真的更具潜力？在严格控制基础模型和数据变量后，纯粹的架构统一会带来何种效果？是否存在一种后训练方法，能够在所有维度上带来稳定提升而非偏科优化？随着TorchUMM的开源，研究社区拥有了一个可以共同探索这些问题的平台。

Q&A

Q1：TorchUMM支持哪些多模态模型，具体能做什么测试？

A：TorchUMM目前支持14个主流多模态模型，包括Bagel、OmniGen2、Emu3系列、Janus系列、Show-o系列、BLIP3-o、TokenFlow、DeepGen和MMaDA。测试内容覆盖图像理解、图像生成和图像编辑三大核心任务，整合了12套基准数据集。所有模型均在完全相同的环境下进行统一评测，结果具备直接可比性。

Q2：多模态模型做了监督微调之后为什么反而会在某些测试上退步？

A：监督微调可能导致模型在特定任务的训练数据上“过度学习”，类似于学生为应付某类题目反复刷题，结果挤占了其他知识的“认知空间”。TorchUMM的跨任务评测系统性地记录了这种现象。例如，Bagel经过SFT后，其WISE生成分数从0.399跌至0.227；TokenFlow的DPG-Bench分数从71.29跌至22.16。在没有统一评测框架时，这类退步很容易被研究者忽略。

Q3：架构统一程度高的多模态模型是否就意味着能力更强？

A：TorchUMM的研究结果表明，架构统一程度与实际能力之间不存在简单的正比关系。在UEval跨任务测试中，架构统一程度最低的OmniGen2反而表现最佳，而统一程度最高的MMaDA表现最差。研究团队指出，这与三个模型所继承的基础模型不同、训练数据各异有关。架构统一的潜在优势目前仍被其他因素所掩盖，在严格控制变量之前，无法得出确定性结论。

来源:https://www.techwalker.com/2026/0421/3184627.shtml

上一篇：大模型能力跨模型迁移新思路破解AI钥匙复刻难题

下一篇： Anthropic厨房指南实验如何训练出既聪明又守规矩的AI学徒