当前位置: 首页
科技数码
美团开源可体验的“重思考”模型,经8次反复实测

美团开源可体验的“重思考”模型,经8次反复实测

热心网友 时间:2026-01-17
转载

新京报贝壳财经讯(记者陈维城)1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。团队介绍,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,达到开源模型SOTA(最先进的水平)水平。

团队介绍,该模型在工具调用的泛化能力上优势明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。

新京报贝壳财经记者进入美团LongCat实测,选定“深度思考”模式,输入:“2010年冬季是冷冬还是暖冬?”页面显示,“接下来,我将以多种思考方式同时进行深度思考,每个 Thinker 将会独立给出一个回复,最终我会将这些回复整合成一个更全面的结论。”




页面显示了8个思考结果分析:2010年冬季应该是指2010年12月至2011年2月,Thinker #7提到“2009年12月至2010年2月”作为2010年冬季,这是错误的。根据国家气候中心的标准,冬季平均气温较常年偏低0.5℃以上才达到冷冬标准。Thinker #3和#8提出了不同观点,认为整体未达冷冬标准。


最后系统结论为,2010年冬季是一个“前冬暖、隆冬冷”的复合型冬季,在强拉尼娜事件影响下,冷空气活动频繁且强度强,尽管全国平均气温偏低幅度未 strictly 达到0.5℃标准,但综合极端天气事件和区域严寒特征,仍被权威机构判定为冷冬。这一现象体现了全球变暖背景下极端天气事件的复杂性。

记者输入“100字概括罗永浩的锤子科技倒闭原因?”系统分析显示,除了字数要求外,Thinker #1提到“内部动荡和战略摇摆”,Thinker #2提到“管理经验缺乏”,Thinker #3提到“融资困难”,Thinker #4强调“供应链”,Thinker #5提到“跨界创业”和“过度投入营销研发”,Thinker #6提到“营销成本失控”,Thinker #7提到“未能规模化盈利”,Thinker #8提到“缺乏商业运营敬畏心”和“依赖情怀”。


系统对比完8个思考后得出结论,“锤子科技倒闭核心是资金链断裂,深层原因为:产品定价过高致销量惨淡,过度重视设计与营销而忽视供应链管理与成本控制;市场竞争激烈,战略摇摆不定;创始人罗永浩的理想主义与商业现实脱节,跨界管理经验不足,最终难以为继。”



记者注意到,2025年春节前后,各大AI大模型逐步上线“深度思考”功能。目前,各大AI大模型的“深度思考”结果并非完全准确,以至于可能出现答非所问,产生虚幻结果。美团此次新模型支持“重思考”模式,相当于系统8次独立思考,再对结果进行复核。

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞。

该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。

编辑 岳彩周

校对 穆祥桐

来源:https://www.163.com/dy/article/KJE46ATP055284JB.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026款AMG GLC 43上市 2.0T轻混四驱轴距近2米9 降价增配

2026款AMG GLC 43上市 2.0T轻混四驱轴距近2米9 降价增配

2026款改款梅赛德斯-AMG GLC 43 4MATIC正式上市,官方指导价为58 9万元。这一价格策略一经公布,便迅速引发市场关注——相较于前代车型,其价格直降7 77万元,更将以往多见于更高阶车型的后轮主动转向系统升级为全系标配。此番“价格下探、配置升级”的组合拳,无疑为中型豪华高性能SUV这

时间:2026-05-23 19:52
硅基智能赴港上市年营收79亿亏损2592万腾讯红杉参股

硅基智能赴港上市年营收79亿亏损2592万腾讯红杉参股

硅基智能更新港股招股书,定位数字人智能体提供商,核心提供“硅基劳动力”解决方案。公司2025年营收7 89亿元,亏损收窄至2592万元。业务从AI工具向全自动内容生产进阶,并探索AI与IP结合。创始人司马华鹏持股26 54%,腾讯、红杉资本等为主要机构股东。

时间:2026-05-23 19:52
中国整合载人与无人探月任务资源队伍统称月球探测工程

中国整合载人与无人探月任务资源队伍统称月球探测工程

来源:新华社 新华社最新消息显示,中国探月工程迎来重大战略升级。我国已正式对载人登月计划与无人月球探测任务进行全方位整合,涵盖任务设计、资源调配与团队协作三大核心领域。整合后的整体项目被统一命名为“月球探测工程”,标志着我国深空探索进入体系化发展的新阶段。 这一名称的统一,远非简单的术语变更,而是中

时间:2026-05-23 19:51
巴基斯坦航天员在华受训 与中国航天员共同参与任务训练

巴基斯坦航天员在华受训 与中国航天员共同参与任务训练

一则来自新华社的官方快讯,虽然篇幅简短,但信息极为重要:两位巴基斯坦籍航天员,现已正式入驻中国航天员科研训练中心,开始与中国航天员共同进行系统性任务训练。 这则消息虽仅有一句话,但其释放的战略信号却十分明确。它标志着中巴两国在航天领域的全面合作,已从早期的技术交流、项目支持,实质性迈入了更为核心的载

时间:2026-05-23 19:50
微星B850M迫击炮MAX主板发布 14相供电与双M2接口解析

微星B850M迫击炮MAX主板发布 14相供电与双M2接口解析

微星近日正式揭晓了备受期待的B850M迫击炮MAX主板。这款新品延续了迫击炮系列标志性的灰黑配色方案,整体外观设计更为沉稳、简洁。为了完美兼容当前主流的大型风冷散热器,主板对CPU插槽位置进行了优化上移,从而彻底解决了安装大型双塔风冷时可能出现的与主板供电模块或内存插槽的空间干涉问题。 在核心的供电

时间:2026-05-23 19:50
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程