美团开源首个“重思考”模型,可体验的工具调用能力登顶SOTA
1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
值得一提的是,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。
目前,该功能可在 https://longcat.ai 免费体验。
“重思考”功能全新上线 智能体工具调用能力登顶开源 SOTA
据介绍,全新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。
具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:
并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。
除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。
经过全面严谨的评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异:
LongCat-Flash-Thinking-2601的平均性能比较(资料图)
·编程能力:LongCat-Flash-Thinking-2601在LCB评测中取得82.8分,OIBench EN 评测获47.7分,成绩处于同类模型第一梯队,代码基础能力扎实。
·数学推理能力:在开启“重思考”模式后表现突出,LongCat-Flash-Thinking-2601在 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。
·智能体工具调用能力:在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平,在多领域工具调用场景下表现优异,适配实际应用需求。
·智能体搜索能力:在BrowseComp任务中取得73.1分(全模型最优),RW Search 评测获79.5分,LongCat-Flash-Thinking-2601具备强劲的信息检索与场景适配能力,达到开源领先水平。
为了更好测试智能体模型的泛化能力,团队还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。
实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下优秀的泛化能力。
技术解密:从“靶场”到“实战”的训练哲学
对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。
得益于这套方案,LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中,性能优于 Claude-Opus-4.5-Thinking。
此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,使其稳居智能体能力第一梯队。
该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。
带噪声/无噪声评测集下的模型表现对比(资料图)
经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
特斯拉等科技巨头遭近一年最严重抛售:原因与影响
随着2月28日点燃的中东战火持续燃烧了一整个月,美股市场也出现了加速下跌的迹象,特别是曾经光芒万丈的科技巨头。截至周五收盘,纳斯达克指数本周累计下跌3 23%,创去年4月“关税冲击”以来最大单周跌幅
陌生电话勿先开口,防骗需知的5个关键细节
3月28日消息,随着人工智能语音合成技术的迅猛发展,声纹这一与指纹、人脸同样具有唯一性的生物特征,正成为新型电信诈骗的新突破口,这种高科技违法手段的隐蔽性已引发社会广泛关注。据媒体报道,在当前的技术
罗技鼠标广告引争议,店铺差评暴增劝退消费者
3月28日消息,知名外设厂商罗技近日在最新账号发布的一则视频引发了巨大的舆论争议。视频中出现的文字表述极具侮辱性,直白地宣称当产品降价时,消费者会像动物一样跑过来。这种傲慢且缺乏基本尊重的措辞,竟然
航空燃油价格一月翻倍,牵动全球飞行成本危机
即便远离中东战场,全球“能源大动脉”阻塞的苦果,正在引发一场蔓延全球的航空危机。截至发稿,从越南到新西兰的航空公司已经开始因航空燃油短缺而取消航班,欧盟和英国也可能在数周内陷入类似的境地。即便是全球
周鸿祎对话刘慈欣:软件行业两三年内将迎来剧变
3月28日消息,近日,在2026中国科幻大会上,360集团创始人周鸿祎与科幻作家刘慈欣、中国科学院高能物理研究所研究员张双南同台,就人工智能对人类文明的影响、AI与科学研究的融合、人类未来的生态位等
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

