美团LongCat发布General 365推理评测 Gemini 3 Pro准确率仅62.8%

AI热点日报时间：2026-07-05

热点解读

美团LongCat团队发布General365推理评测基准，涵盖365道复杂推理题。对26款主流大模型实测显示，表现最强的Gemini3Pro准确率仅62 8%，绝大多数模型得分低于60分，揭示当前AI在复杂推理任务中仍面临严峻挑战。

在人工智能大模型高速迭代的当下，如何精准评估模型的“真实推理水平”已成为业界核心难题。美团LongCat团队正式推出General 365推理评测基准，旨在为大模型推理能力树立全新标尺。在对全球26款主流模型的实测中，当前表现最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型得分均低于60分。这一结果揭示了当今顶尖AI模型在复杂推理任务中仍面临严峻挑战，同时也凸显了General 365作为高难度评测工具的行业价值。

核心要点

发布新标尺：美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
覆盖范围广：该评测对全球范围内26款主流大模型进行了深度实测。
顶尖模型受挫：被视为目前最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
行业普遍困境：测试结果显示，绝大多数主流模型未能达到60分的及格线，推理能力仍有巨大提升空间。

详细分析

General 365：重新定义推理评测难度

美团LongCat团队发布的General 365并非普通的性能测试，而是一个专注于“推理能力”的深度评测基准。在当前大模型技术飞速革新的背景下，传统评测集常因题目被纳入训练语料（数据污染）或难度不足，导致模型得分虚高。General 365的出现，旨在通过更高难度的任务设计，真实还原模型在处理复杂逻辑、多步推理及泛化场景下的表现。通过对26款主流模型的实测，该基准成功拉开了模型间的差距，为行业提供了一个更具参考价值的性能坐标系。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：美团LongCat发布General 365推理评测 Gemini 3 Pro准确率仅62.8%要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://aitoolly.com/zh/ai-news/article/2026-06-28-longcatgeneral-365gemini-3-pro628

LongCat

上一篇：LARYBench发布：定义具身动作表征的ImageNet，首次度量人类视频泛化表征

下一篇：DeepSeek开源AI大模型推理加速框架DSpark线上吞吐提升400%

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

相关热点

AI热点2026-07-05 15:21

Pika短剧冲突片段提示词优化让输出更易发布

要生成适合短视频发布的AI短剧冲突片段，需在提示词中指定“3秒冲突爆发”以压缩铺垫，使用大写关键词触发物理反馈，并绑定强识别符号。避免使用blood、knife等敏感词，改为描述物理效果，同时前置标注对话语言，以规避审核风险并提升画面可看性。

AI热点2026-07-05 15:21

Codex MCP协议连接详细指南：跨工具管理能力扩展技巧

MCP协议安全连接Codex与外部工具，扩展自动化能力。配置需Node js、Git及CodexCLI支持，可通过命令行、手动编辑或MCPRouter完成。部署后须验证服务状态与调用功能，检查版本、路径等常见问题，支持多工具协同调用，并在同一会话中灵活调度。该原理同样适用于VSCode环境。

AI热点2026-07-05 15:21

Mac M芯片 Codex手语翻译实时摄像头手势转文字指南

在MacM系列芯片上实现实时手语翻译需重点解决ARM64架构下的环境配置与硬件适配。必须创建纯ARM64的Python环境并安装专用PyTorch版本，通过OpenCV接入摄像头。关键步骤包括将手语模型加载至Metal后端并进行半精度转换，同时调整帧率等参数以确保实时性，最终实现手势到文字的实时转换与输出。

AI热点2026-07-05 15:20

天工AI电商直播带货话术设计实用技巧

天工AI通过输入角色场景、硬约束、产品卖点与证据，30秒生成模块化抖音直播话术，再经合规扫描器自动校验违禁词、脱敏及强刺激词密度，完美适配提词器，实现高效过审。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周通义灵码实战Flutter跨平台移动端开发实例 02 / 本周LiblibAI数据分析提示词计划太粗优化方法 03 / 本周Firefly办公提示词避免元素堆砌的技巧 04 / 本周SpaceX、Anthropic与OpenAI掀起IPO热潮 MANGOS时代开启 05 / 本周如何搭建自己的提示词库

01 / 本月通义灵码实战Flutter跨平台移动端开发实例 02 / 本月LiblibAI数据分析提示词计划太粗优化方法 03 / 本月Firefly办公提示词避免元素堆砌的技巧 04 / 本月SpaceX、Anthropic与OpenAI掀起IPO热潮 MANGOS时代开启 05 / 本月如何搭建自己的提示词库

热点快看

07-05 15:28通义灵码实战Flutter跨平台移动端开发实例 07-05 15:28LiblibAI数据分析提示词计划太粗优化方法 07-05 15:27Firefly办公提示词避免元素堆砌的技巧 07-05 15:27SpaceX、Anthropic与OpenAI掀起IPO热潮 MANGOS时代开启 07-05 15:27如何搭建自己的提示词库

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别