当前位置: 首页
科技数码
美团开源LongCat:优化长文本思维链推理

美团开源LongCat:优化长文本思维链推理

热心网友 时间:2026-01-16
转载

美团 LongCat 团队正式对外发布并开源全新模型 LongCat-Flash-Thinking-2601,同步公开模型权重、推理代码及在线交互体验服务。

据最新介绍,该模型是此前发布的 LongCat-Flash-Thinking 的全面升级版本,在 Agentic Search(智能体驱动搜索)、Agentic Tool Use(智能体化工具调用)以及 TIR(Tool Interaction Reasoning,工具交互推理)等关键评测任务上,均刷新开源模型的 SOTA(State-of-the-Art)记录。

尤为值得关注的是,LongCat-Flash-Thinking-2601 在工具调用任务中展现出极强的泛化性能,面对高度随机且结构复杂的工具依赖型任务时,其表现已超越 Claude;这显著降低了在真实业务场景中接入新工具所需的定制化训练成本。同时,它也是业内首个完整开源、并支持在线免费体验“重思考模式(Heavy Thinking Mode)”的模型——可同时激活 8 个独立推理单元并行运转,保障思考深度与决策稳健性。

其核心推理机制分为两个协同阶段:

  • 并行思考阶段:模型同步生成多条逻辑独立、视角各异的推理路径,模拟人类面对复杂问题时“多角度试错”的思维习惯,并主动增强路径多样性,避免陷入局部最优;
  • 总结归纳阶段:对前述多路结果进行交叉验证、逻辑精炼与结构整合,并将优化后的中间结论重新注入推理流程,形成闭环式迭代深化,持续逼近最优解。

项目团队还额外引入了面向“归纳总结能力”的强化学习训练策略,精准强化模型在信息整合、抽象提炼与策略生成方面的表现,真正实现“深思熟虑后再执行”。

综合评测数据显示,LongCat-Flash-Thinking-2601 在编程理解、数学推演、智能体工具调用与智能体搜索四大维度全面领跑:

美团开源 LongCat-Flash-Thinking-2601

  • 编程能力:在 LCB 基准测试中斩获 82.8 分,OIBench EN 测试达 47.7 分,稳居当前开源模型第一梯队,代码生成质量与逻辑严谨性俱佳;
  • 数学推理能力:启用重思考模式后优势凸显,在 AIME-25 测评中满分通关(100.0 分),IMO-AnswerBench 中以 86.8 分刷新现有开源模型最高分,达成 SOTA;
  • 智能体工具调用能力:τ²-Bench 得分 88.2,VitaBench 达 29.3,两项指标均为当前开源模型最佳成绩,覆盖金融、医疗、运维等多领域工具链,实用性强;
  • 智能体搜索能力:BrowseComp 任务得分 73.1(全模型最高),RW Search 评测获 79.5 分,展现出卓越的信息定位精度与跨场景泛化能力,达到开源领域领先水平

源码地址:点击下载

来源:https://www.php.cn/faq/1990424.html?uid=1246273

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026年618大促AI全场景应用深度解析与产业观察

2026年618大促AI全场景应用深度解析与产业观察

2026年618大促将全面融合AI技术,覆盖全场景与产业链。平台通过持续研发,将AI应用于零售、物流、健康及工业等数千场景,旨在提升产业效率与消费体验。以“附身智能”JoyInside为代表的AI能力正接入超千万台智能设备。京东在AI基础设施层面已构建全栈产品矩阵及多个垂直模型,研发投入大幅增长。

时间:2026-05-19 06:49
AI训练数据选择难题破解智能配方秤精准筛选方案

AI训练数据选择难题破解智能配方秤精准筛选方案

字节跳动与加州大学提出InfoLaw框架,解决大模型因重复使用高质量数据导致的性能下降问题。该框架量化数据信息获取量,结合质量、重复次数与模型规模等因素,建立预测性能的统一曲线,可主动搜索最优数据混合比例,提升训练数据利用效率。

时间:2026-05-19 06:49
AI视觉识别模糊的原因与解决方法

AI视觉识别模糊的原因与解决方法

2026年5月提出的MoCam采用分阶段新视角合成方法:早期利用粗糙点云确定布局,后期切换至原始视频修正错误并补充细节。该方法解决了传统方式中几何与外观冲突导致的画面模糊问题,在静态与动态场景中均提升了生成质量与控制精度,为影视、虚拟现实等领域提供了新思路。

时间:2026-05-19 06:49
芯片AI与智慧家电三企同步启动港股招股

芯片AI与智慧家电三企同步启动港股招股

5月18日,港股市场迎来新股集中招股。云英谷科技、深演智能和华曦达三家公司同步启动招股,分别聚焦显示驱动芯片、AI营销与智慧家庭产品,申购均于21日截止。同日,翼菲科技上市首日大涨,龙丰集团通过港交所聆讯。

时间:2026-05-19 06:48
腾讯吐司与蚂蚁灵光对比评测普通人如何选择AI应用开发工具

腾讯吐司与蚂蚁灵光对比评测普通人如何选择AI应用开发工具

腾讯“吐司”与蚂蚁“灵光”均主打AI生成应用,但路径不同。吐司能打包生成APK文件,实现真正安装,过程耗时较长;灵光生成HTML页面,速度更快但依赖平台运行。两者均降低了应用制作门槛,适合生成简单工具,但面临分发挑战,且无法满足专业开发需求。

时间:2026-05-19 06:48
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程