美团开源首个“重思考”模型,可体验的工具调用能力登顶SOTA
1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
值得一提的是,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。
目前,该功能可在 https://longcat.ai 免费体验。
“重思考”功能全新上线 智能体工具调用能力登顶开源 SOTA
据介绍,全新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。
具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:
并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。
除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。
经过全面严谨的评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异:
LongCat-Flash-Thinking-2601的平均性能比较(资料图)
·编程能力:LongCat-Flash-Thinking-2601在LCB评测中取得82.8分,OIBench EN 评测获47.7分,成绩处于同类模型第一梯队,代码基础能力扎实。
·数学推理能力:在开启“重思考”模式后表现突出,LongCat-Flash-Thinking-2601在 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。
·智能体工具调用能力:在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平,在多领域工具调用场景下表现优异,适配实际应用需求。
·智能体搜索能力:在BrowseComp任务中取得73.1分(全模型最优),RW Search 评测获79.5分,LongCat-Flash-Thinking-2601具备强劲的信息检索与场景适配能力,达到开源领先水平。
为了更好测试智能体模型的泛化能力,团队还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。
实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下优秀的泛化能力。
技术解密:从“靶场”到“实战”的训练哲学
对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。
得益于这套方案,LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中,性能优于 Claude-Opus-4.5-Thinking。
此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,使其稳居智能体能力第一梯队。
该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。
带噪声/无噪声评测集下的模型表现对比(资料图)
经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
文件内容自动修改方法与步骤详解
在自动化办公领域,RPA(机器人流程自动化)已成为提升效率的关键技术。当面临需要批量、重复修改文档内容的场景时,RPA能够显著提升处理速度与准确性。本文将详细介绍如何利用RPA实现文件内容的自动修改,涵盖从需求分析到部署维护的全流程。 RPA修改文件内容的基本步骤 实现RPA自动修改文件内容的过程逻
如何优化文章标题以提升搜索流量与点击率
如何将图片中的文字快速提取并转换为可编辑的文档?这已成为提升办公与学习效率的常见需求。其核心技术依赖于OCR(光学字符识别),它能自动“读取”图片中的文字信息,并将其转化为可复制、编辑的文本格式,实现高效的图片文字自动录入。本文将为您系统梳理几种主流且高效的图片转文字方法。 一、使用专业OCR软件或
实在智能五大数字员工如何借助大模型高效上岗
在数字化转型的浪潮中,人工智能技术正深刻改变着企业的运营模式与行业竞争格局。近日,实在智能公司迎来重要升级——其智能平台全新推出五位基于大模型能力的数字员工,正式投入多个核心业务场景,开启了人机协同的高效工作新范式。 这五位数字员工并非简单自动化工具,而是分别专注于客户服务、数据分析、内容创作、流程
RPA到AI Agent的演进之路 数字员工如何实现智能化升级
在当今企业界,数字化转型正以前所未有的力度重塑劳动力格局。曾经,机器人流程自动化(RPA)技术以其高效、精准的特性,为企业引入了“数字员工”的雏形,显著提升了业务流程的自动化水平。如今,随着人工智能技术的迅猛发展,这些数字员工正经历一场深刻的智能化升级,逐步进化为更智能、更自主的AI智能体(AI A
15万级C级车新选择 搭载闪充技术性价比出众
5月9日,领汇汽车旗下第二款战略车型——领汇e9正式上市。回顾其发展历程,自2月品牌发布以来,渠道网络迅速扩张,4月A级轿车e7率先登场,如今C级轿车e9接踵而至,这一系列动作清晰展现了“中国智造”的迅猛节奏。其核心战略在于:以更快的产品迭代与市场响应,推动先进技术快速普及。领汇e9正是这一理念的最
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

