美团推出LongCat-Flash-Thinking推理模型,多项指标媲美GPT-5

9月23日科技快讯,美团LongCat团队正式推出全新升级的推理引擎LongCat-Flash-Thinking。这款新品不仅继承了前代LongCat-Flash-Chat的极速响应特性,更在专业性方面实现显著突破。
评测数据显示,LongCat-Flash-Thining在逻辑推理、数学运算、编程开发和智能体应用等多个专业领域均达到国际开源模型前沿水平,部分指标甚至媲美GPT5-Thinking类闭源产品。
值得注意的是,新模型不仅强化了智能体工具调用功能,更创新性地整合了形式化定理证明能力,成为国内首个兼具"深度认知+工具交互"与"非形式化+形式化"双重推理能力的大模型。
研发团队特别强调,在处理高复杂度任务(如数学证明、代码编写、智能体协作)时,新模型展现出明显竞争优势。
核心能力亮点:
通用推理能力:在结构化逻辑任务中表现优异,ARC-AGI测试中以50.3分超越OpenAI等主流闭源模型。
数学能力:在HMMT和AIME等高难度数学测评中超越OpenAI o3,与Qwen3-235B等顶尖模型齐平。
编程能力:LiveCodeBench测试79.4分创开源模型新高,接近GPT-5水平;OJBench测试40.7分媲美Gemini2.5-Pro。
智能体能力:τ2-Bench测试74分刷新开源记录,SWE-Bench等专业测评中展现超强竞争力。
形式推理能力:MiniF2F-test基准中pass@1得分67.6,pass@8/32同样保持领先,在形式化证明领域独具优势。
目前该模型已在HuggingFace、GitHub等平台开源,用户可立即下载体验。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
Xbox年内二度涨价 主因利润压力非关税
9月23日,前暴雪娱乐总裁Mike Ybarra在社交平台发文,谈及近期主机价格调整的相关情况。他指出,最新一轮Xbox游戏机的涨价与关税并无关联,核心原因在于企业利润层面的考量,即当前主机业务的盈
OPPO设计负责人解析背屏争议:功能与用户体验的平衡之道
9月22日,OPPO工业设计中心负责人谈及手机背部副屏设计,表达了个人对该设计的保留态度。他认为,任何功能一旦加入产品序列,就意味着今后每一代产品都必须反复评估其去留,这会带来持续的决策负担,因此在
Win11 24H2面部识别BUG终获修复,微软发布重要更新
9月23日,有技术博客发布信息指出,微软近期修复了一个在Windows 11 24H2版本中持续近一年的系统缺陷。该问题源于面部检测功能的异常,可能导致部分应用程序出现无响应或卡死现象。此漏洞在启用
一汽控股卓驭科技35.8%股权,携手布局智能驾驶领域
近日,国家市场监管总局发布一则重要公告,对中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权一事进行公示。这意味着,此前业内流传的一汽入股卓驭科技的消息正式得到确认。据了解,此次收购中,一汽将通
中世纪PVP生存新作《名望》登陆Steam抢先体验
由RDBK Studios开发并发行的中世纪主题PVP生存战斗游戏名望现已在Steam平台开启抢先体验,支持中文语言。 玩家将在一个持续变化的广阔中世纪世界中展开生存挑战。你的唯一目标便是活下去—
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















