美团开源通用推理评测基准LongCat General 365

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

美团开源通用推理评测基准LongCat General 365

热心网友时间：2026-05-27

转载

大模型在奥数竞赛中屡获佳绩，展现出强大的解题能力。然而，当面对“洗车店就在50米外，我是开车去还是走路去？”这类日常决策时，许多号称推理能力顶尖的模型，却可能一本正经地为你规划驾车路线。

这种“知识渊博”与“常识匮乏”的鲜明对比，恰恰揭示了当前大模型评测体系的一个关键短板：模型或许能记忆并套用复杂公式，却常常在最基础的逻辑判断上失误。

为了直面这一核心挑战，美团 LongCat 团队正式推出了 General 365 评测基准。实测结果引人深思：在对26款主流大模型的评估中，目前表现最佳的 Gemini 3 Pro 准确率也仅为62.8%，而绝大多数模型的得分甚至未能达到60%的及格线。

这一基准将评测焦点从“学科知识竞赛”转向了“通用逻辑思维”，首次清晰地勾勒出当前大语言模型在常识与逻辑推理能力上的真实边界。

从“解题专家”到“逻辑思考者”：为何需要新的评测标准？

过去两年，大模型的推理能力评测高度集中于数学、物理、编程等依赖专业知识的领域，头部模型在特定题库上甚至能接近满分。然而，一个根本性问题被忽视了：学科推理的高分，并不等同于通用推理能力强。高分可能源于模型对训练数据的记忆和模式匹配，而非真正可迁移、可泛化的逻辑推演能力。现有的通用推理基准（如BBH、BBEH）则面临两大瓶颈：任务设计过于模板化导致逻辑同质化，以及性能趋于饱和导致的区分度急剧下降。

General 365 基准的设计目标应运而生：将背景知识严格限定在K-12基础教育水平，显式地将逻辑推理能力与专业知识储备解耦，从而系统、公正地评估模型在日常生活与工作场景下的通用推理水平。它具备以下五项核心特征：

高多样性：包含365道原创种子题及1095个扩展变体，全面覆盖八大挑战类型，杜绝特征重复与死记硬背；
高挑战性：即便是目前最先进的SOTA模型，在此基准上也仅能勉强及格，区分度显著；
聚焦推理：知识范围严格受限，纯粹衡量逻辑链条构建能力，而非知识检索能力；
严格人工质检：所有题目均经过人工审核，覆盖题目设计、推理过程与最终答案的合理性；
精准评分：采用混合规则与模型的自动化打分方法，并经人工抽样验证，评分准确率高达99.6%。

拆解通用推理：八大核心能力维度

要准确衡量通用推理能力，首先需要明确其核心构成。General 365 基准将其系统性地拆解为八个关键维度，确保每道题目至少对应其中一项挑战：

复杂约束处理：在多条件交织的复杂情境下，维护全局逻辑一致性；
分支与枚举：对可能的解空间进行系统性遍历与边界覆盖；
时空推理：对空间位置关系与时间序列进行动态推演；
递归与回溯：完成“假设—验证—推翻”的迭代式纠错与探索过程；
语义干扰抵抗：跨越语言表述中的认知陷阱，严格遵循题目设定的核心规则；
隐式信息推断：从碎片化、不完整的线索中，推断出底层的逻辑结构与隐含条件；
最优策略规划：在多路径、多步骤的解决方案中进行效用权衡与全局规划；
概率与不确定性推理：在不完全信息条件下，进行合理的概率推断与决策。

图1：八个类别的题目数量分布

如上图所示，“复杂约束处理类”题目占比最大，而“概率与不确定性推理类”也包含了超过20道题目，确保了每个维度都有充足的样本进行有效评估。

图2：多标签题目的数量分布

如图2所示，近70%的题目同时具备两个或以上的类别标签。这种复合型任务设计，更贴近真实世界问题的复杂性与逻辑交织特性。

质量是基准的基石：如何确保题目可靠有效？

题目质量是评测基准可靠性与有效性的根基。General 365 的种子题目全部为人工原创设计，并历经难度分级过滤、多样性扩充、数据后处理、模型辅助扩题与多轮人工审核等多重严格工序，最终形成1460道高质量评测题目。为确保题目多样性的客观性，团队从两个关键维度进行了量化验证：

语义分布均匀性：如下图所示，在t-SNE降维可视化中，General 365 的题目语义嵌入分布均匀而分散。相比之下，BBH 和 BBEH 基准的题目均出现了明显的语义聚集现象，暴露了其潜在的逻辑冗余与模板化问题。

图3：三个基准的t-SNE语义分布对比

逻辑独立性验证：如下图所示，通过 Gemini 3 Pro 对语义相近的题目对进行推理路径相似度评分（0-5分），General 365 的平均得分仅为2.16分，远低于 BBH 和 BBEH。这意味着，在 General 365 中，模型很难再依靠“记忆解题套路”或“背诵模板”来获得高分。

图4：三个基准的推理路径相似度评分分布

实测全景：主流大模型表现究竟如何？

手握这把精心校准的“标尺”，LongCat 团队对涵盖多个系列的26款主流大语言模型进行了一次全面的能力摸底测试。

图5：26款模型准确率排行

实测结果颇具启发性。Gemini 3 Pro 以62.8%的成绩艰难夺冠，而绝大多数模型则深陷50%-60%的得分区间，未能触及及格线。值得注意的是，尽管非专门针对推理优化的模型整体表现略逊一筹，但像 Qwen 3 Max Instruct 这样的个别模型，依然展现出了不俗的通用推理潜力。

表1：各模型在八个类别上的准确率明细

将总体成绩按八大能力维度分解后，问题变得更加清晰。“语义干扰抵抗”与“最优策略规划”成为了大多数模型的主要性能洼地。模型在这两项上的平均得分，普遍比其整体准确率低了约10个百分点。这不仅暴露出大模型极易被题干中的冗余或干扰信息带偏思路，更凸显了其在多步骤、全局性规划与决策能力上的普遍匮乏。

图6：不同模型系列在八个类别上的雷达图

如图6的雷达图所示，不同技术路线的模型系列在“隐式信息推断”等特定任务上，展现出了明显的能力分化与特色。

图7：准确率与平均输出token长度的关系

在关注“答案是否正确”的同时，“耗费多少计算资源得出答案”同样是一个重要的效率评估指标。如图7所示，Gemini 3 Pro 仅用约14k tokens的平均输出长度就拿下了最高分。而取得相近准确率的其他部分模型，其平均输出长度普遍暴涨至25k-30k tokens，推理效率差异显著。

横向对比：难度提升究竟有多大？

General 365基准的难度究竟带来了多大挑战？如图8的横向对比所示，各大主流模型在General 365上的准确率，较其在BBH/BBEH基准上的成绩均出现了普遍性的大幅下降。例如，GPT-5-Thinking在BBH上准确率为92.0%，而在General 365上仅为58.6%，落差明显。

图8：三个基准性能对比

更重要的是，如图9所示，模型在General 365上虽然准确率明显偏低，但平均输出长度却显著增加。这有力地证实了，其难度提升来源于对更深、更复杂逻辑链条的需求，而非简单的题目表述冗长或毫无意义的字数堆砌。

图9：三个基准上准确率与输出长度的关系

结语：探寻通向“人类级智慧”的必经之路

General 365 基准将推理能力评测从对专业知识的过度依赖中剥离出来，让我们得以更直观、更纯粹地审视大语言模型在真实世界通用逻辑推理任务上的核心短板。它的初衷，并非为了在评测榜单上再增添一个接近满分的数据点，而是为了探寻那条让AI模型从“熟练的解题机器”蜕变为“具备常识与灵活思维的思考者”的必经之路。

毕竟，一个能解出国际数学奥林匹克难题，却无法合理回答“该走路还是开车去50米外的洗车店”的模型，距离我们期望的通用人工智能（AGI）与人类级智慧，还有很长的路要走。目前，这项研究的相关数据集与评测方法已全面开源，期待与全球社区共同努力，推动大模型逻辑推理与常识判断能力的下一次实质性进化。

来源:https://www.53ai.com/news/LargeLanguageModel/2026051439614.html

上一篇：爱芯元智AX8850边缘AI芯片成功适配CosyVoice2大模型

下一篇： MiniMax M3大模型即将发布国产AI性能提升10至15倍