当前位置: 首页
AI资讯
美团开源通用推理评测基准LongCat General 365

美团开源通用推理评测基准LongCat General 365

热心网友 时间:2026-05-27
转载

大模型在奥数竞赛中屡获佳绩,展现出强大的解题能力。然而,当面对“洗车店就在50米外,我是开车去还是走路去?”这类日常决策时,许多号称推理能力顶尖的模型,却可能一本正经地为你规划驾车路线。

这种“知识渊博”与“常识匮乏”的鲜明对比,恰恰揭示了当前大模型评测体系的一个关键短板:模型或许能记忆并套用复杂公式,却常常在最基础的逻辑判断上失误。

为了直面这一核心挑战,美团 LongCat 团队正式推出了 General 365 评测基准。实测结果引人深思:在对26款主流大模型的评估中,目前表现最佳的 Gemini 3 Pro 准确率也仅为62.8%,而绝大多数模型的得分甚至未能达到60%的及格线。

这一基准将评测焦点从“学科知识竞赛”转向了“通用逻辑思维”,首次清晰地勾勒出当前大语言模型在常识与逻辑推理能力上的真实边界。

从“解题专家”到“逻辑思考者”:为何需要新的评测标准?

过去两年,大模型的推理能力评测高度集中于数学、物理、编程等依赖专业知识的领域,头部模型在特定题库上甚至能接近满分。然而,一个根本性问题被忽视了:学科推理的高分,并不等同于通用推理能力强。高分可能源于模型对训练数据的记忆和模式匹配,而非真正可迁移、可泛化的逻辑推演能力。现有的通用推理基准(如BBH、BBEH)则面临两大瓶颈:任务设计过于模板化导致逻辑同质化,以及性能趋于饱和导致的区分度急剧下降。

General 365 基准的设计目标应运而生:将背景知识严格限定在K-12基础教育水平,显式地将逻辑推理能力与专业知识储备解耦,从而系统、公正地评估模型在日常生活与工作场景下的通用推理水平。它具备以下五项核心特征:

  • 高多样性:包含365道原创种子题及1095个扩展变体,全面覆盖八大挑战类型,杜绝特征重复与死记硬背;
  • 高挑战性:即便是目前最先进的SOTA模型,在此基准上也仅能勉强及格,区分度显著;
  • 聚焦推理:知识范围严格受限,纯粹衡量逻辑链条构建能力,而非知识检索能力;
  • 严格人工质检:所有题目均经过人工审核,覆盖题目设计、推理过程与最终答案的合理性;
  • 精准评分:采用混合规则与模型的自动化打分方法,并经人工抽样验证,评分准确率高达99.6%。

拆解通用推理:八大核心能力维度

要准确衡量通用推理能力,首先需要明确其核心构成。General 365 基准将其系统性地拆解为八个关键维度,确保每道题目至少对应其中一项挑战:

  • 复杂约束处理:在多条件交织的复杂情境下,维护全局逻辑一致性;
  • 分支与枚举:对可能的解空间进行系统性遍历与边界覆盖;
  • 时空推理:对空间位置关系与时间序列进行动态推演;
  • 递归与回溯:完成“假设—验证—推翻”的迭代式纠错与探索过程;
  • 语义干扰抵抗:跨越语言表述中的认知陷阱,严格遵循题目设定的核心规则;
  • 隐式信息推断:从碎片化、不完整的线索中,推断出底层的逻辑结构与隐含条件;
  • 最优策略规划:在多路径、多步骤的解决方案中进行效用权衡与全局规划;
  • 概率与不确定性推理:在不完全信息条件下,进行合理的概率推断与决策。

图1:八个类别的题目数量分布

如上图所示,“复杂约束处理类”题目占比最大,而“概率与不确定性推理类”也包含了超过20道题目,确保了每个维度都有充足的样本进行有效评估。

图2:多标签题目的数量分布

如图2所示,近70%的题目同时具备两个或以上的类别标签。这种复合型任务设计,更贴近真实世界问题的复杂性与逻辑交织特性。

质量是基准的基石:如何确保题目可靠有效?

题目质量是评测基准可靠性与有效性的根基。General 365 的种子题目全部为人工原创设计,并历经难度分级过滤、多样性扩充、数据后处理、模型辅助扩题与多轮人工审核等多重严格工序,最终形成1460道高质量评测题目。为确保题目多样性的客观性,团队从两个关键维度进行了量化验证:

  • 语义分布均匀性:如下图所示,在t-SNE降维可视化中,General 365 的题目语义嵌入分布均匀而分散。相比之下,BBH 和 BBEH 基准的题目均出现了明显的语义聚集现象,暴露了其潜在的逻辑冗余与模板化问题。

图3:三个基准的t-SNE语义分布对比

  • 逻辑独立性验证:如下图所示,通过 Gemini 3 Pro 对语义相近的题目对进行推理路径相似度评分(0-5分),General 365 的平均得分仅为2.16分,远低于 BBH 和 BBEH。这意味着,在 General 365 中,模型很难再依靠“记忆解题套路”或“背诵模板”来获得高分。

图4:三个基准的推理路径相似度评分分布

实测全景:主流大模型表现究竟如何?

手握这把精心校准的“标尺”,LongCat 团队对涵盖多个系列的26款主流大语言模型进行了一次全面的能力摸底测试。

图5:26款模型准确率排行

实测结果颇具启发性。Gemini 3 Pro 以62.8%的成绩艰难夺冠,而绝大多数模型则深陷50%-60%的得分区间,未能触及及格线。值得注意的是,尽管非专门针对推理优化的模型整体表现略逊一筹,但像 Qwen 3 Max Instruct 这样的个别模型,依然展现出了不俗的通用推理潜力。

表1:各模型在八个类别上的准确率明细

将总体成绩按八大能力维度分解后,问题变得更加清晰。“语义干扰抵抗”与“最优策略规划”成为了大多数模型的主要性能洼地。模型在这两项上的平均得分,普遍比其整体准确率低了约10个百分点。这不仅暴露出大模型极易被题干中的冗余或干扰信息带偏思路,更凸显了其在多步骤、全局性规划与决策能力上的普遍匮乏。

图6:不同模型系列在八个类别上的雷达图

如图6的雷达图所示,不同技术路线的模型系列在“隐式信息推断”等特定任务上,展现出了明显的能力分化与特色。

图7:准确率与平均输出token长度的关系

在关注“答案是否正确”的同时,“耗费多少计算资源得出答案”同样是一个重要的效率评估指标。如图7所示,Gemini 3 Pro 仅用约14k tokens的平均输出长度就拿下了最高分。而取得相近准确率的其他部分模型,其平均输出长度普遍暴涨至25k-30k tokens,推理效率差异显著。

横向对比:难度提升究竟有多大?

General 365基准的难度究竟带来了多大挑战?如图8的横向对比所示,各大主流模型在General 365上的准确率,较其在BBH/BBEH基准上的成绩均出现了普遍性的大幅下降。例如,GPT-5-Thinking在BBH上准确率为92.0%,而在General 365上仅为58.6%,落差明显。

图8:三个基准性能对比

更重要的是,如图9所示,模型在General 365上虽然准确率明显偏低,但平均输出长度却显著增加。这有力地证实了,其难度提升来源于对更深、更复杂逻辑链条的需求,而非简单的题目表述冗长或毫无意义的字数堆砌。

图9:三个基准上准确率与输出长度的关系

结语:探寻通向“人类级智慧”的必经之路

General 365 基准将推理能力评测从对专业知识的过度依赖中剥离出来,让我们得以更直观、更纯粹地审视大语言模型在真实世界通用逻辑推理任务上的核心短板。它的初衷,并非为了在评测榜单上再增添一个接近满分的数据点,而是为了探寻那条让AI模型从“熟练的解题机器”蜕变为“具备常识与灵活思维的思考者”的必经之路。

毕竟,一个能解出国际数学奥林匹克难题,却无法合理回答“该走路还是开车去50米外的洗车店”的模型,距离我们期望的通用人工智能(AGI)与人类级智慧,还有很长的路要走。目前,这项研究的相关数据集与评测方法已全面开源,期待与全球社区共同努力,推动大模型逻辑推理与常识判断能力的下一次实质性进化。

来源:https://www.53ai.com/news/LargeLanguageModel/2026051439614.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
人形机器人赋号2.8万台意味着什么

人形机器人赋号2.8万台意味着什么

2026年5月22日,中国机器人产业迎来一个里程碑式的时刻。在工业和信息化部的统筹指导下,全国人形机器人全生命周期管理服务平台正式启动运行。这标志着我国首套统一、可追溯、全覆盖的人形机器人数字身份管理体系进入全面实施阶段,为行业规范化发展奠定了坚实基础。 简单来说,自此之后,每一台在国内生产、销售或

时间:2026-05-27 18:30
AI智能戒指如何通过深度学习实现多维感知突破

AI智能戒指如何通过深度学习实现多维感知突破

AI技术正以前所未有的深度与广度融入消费电子领域,驱动可穿戴设备向微型化、智能化与场景化方向加速演进。近期,多款集成前沿AI算法的智能戒指密集发布,标志着这一品类已超越传统饰品或基础监测工具的范畴,进化为具备深度感知与主动服务能力的个人智能终端。通过机器学习与多维数据融合,它们实现了从被动记录到主动

时间:2026-05-27 18:30
工软生态高峰论坛圆满落幕 AI赋能产业铸基破局

工软生态高峰论坛圆满落幕 AI赋能产业铸基破局

11月25日,粤港澳大湾区国家技术创新中心在广州举办工业软件生态高峰论坛。论坛聚焦AI赋能国产工业软件,探讨通过软硬件协同、构建标准化数据资源库与智能搜索技术降低使用成本。广汽、超聚变等企业案例显示仿真效率提升、研发周期缩短。会议强调需协同算力、数据、AI与生态,推动工业软件从。

时间:2026-05-27 18:29
多任务学习训练方案:一个模型同时实现分类摘要与翻译

多任务学习训练方案:一个模型同时实现分类摘要与翻译

采用“共享编码器+多头解码”架构,使模型能同时处理分类、摘要和翻译任务。通过动态加权损失函数平衡不同任务,并分阶段渐进训练以避免表示坍塌。设计非均匀采样策略确保各任务数据均衡,同时引入任务感知门控实现特征解耦,从而提升多任务学习的整体效果。

时间:2026-05-27 18:27
人形机器人实现24小时无人值守自动化作业

人形机器人实现24小时无人值守自动化作业

人形机器人实现连续自主工作超过24小时,这一突破性进展源自Figure AI的最新公开演示,其实际运行时长已远超最初设定的8小时测试目标。 据这家位于加州的机器人公司披露,三台搭载了Helix-02人工智能系统的机器人,正在完全无人为干预的条件下,全天候执行包裹分拣与搬运任务。 值得一提的是,在实时

时间:2026-05-27 18:26
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程