当前位置: 首页
科技数码
林俊灏离职后首度长文:阿里千问负责人谈模型到智能体转折

林俊灏离职后首度长文:阿里千问负责人谈模型到智能体转折

热心网友 时间:2026-03-27
转载

3月26日,原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)在社交平台上发布了一篇题为“From ‘Reasoning’ Thinking to‘Agentic’ Thinking(从推理式思考到智能体思考)的文章长文。这是他自本月初从阿里辞职之后发布的第一篇长文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在这篇文章中,林俊旸系统性地复盘了推理模型阶段的特征,并探讨了AI未来的发展方向:从训练模型转向训练智能体。

从“想得更久”到“为了行动而想”

林俊旸首先区分了两种截然不同的思考范式:推理式思考与智能体式思考。

推理式思考核心是模型在给出最终答案之前的内部推演质量,即能不能解这道定理,能不能写对代码,能不能通过benchmark(基准测试)。

OpenAI的o1和DeepSeek-R1代表的正是这一范式,它们证明了在拥有确定性、稳定且能规模化的反馈信号与强大的基础设施支持下,语言模型上的强化学习能带来“质变”级的认知提升。

但林俊旸认为,现在该问的是下一步:如何实现智能体式思考。这一思考模式的追问的是模型在跟环境打交道的过程中,能不能持续往前走。核心问题从“模型能不能想得够久”变成了“模型能不能用一种撑得起有效行动的方式来想”。

这意味着,智能体式思考要处理几件纯推理模型无需面对的难题:何时停止思考开始行动?如何选择工具并排序?如何处理残缺的、有噪声的环境反馈?行动失败了如何改计划?如何在长期交互中保持思路不断?

林俊旸总结,“智能体式思考,就是通过行动来推理。”他预测,智能体式思考将逐渐取代旧式“内部独白式推理”——那种又长又封闭的内部轨迹,试图靠吐出越来越多的文字弥补自己没法跟外界交互的缺陷。哪怕是极难的数学或编程任务,一个真正先进的系统也应该能搜索、能模拟、能执行、能检查、能修订。

“2025年初,我们千问团队有一个很大的野心:做一个统一的系统,把思考模式和指令模式合二为一。调推理力度可以低、中、高三档。更好的是模型能从提示词和上下文里自动判断该想多久,简单的直接答,难的多花算力。”林俊旸称。

林俊旸也对探索智能体式思考这一尝试做了复盘。他写道,真正的麻烦不在模型架构,而在数据。

优秀的指令模型核心优势是直接、简洁、格式合规、低延迟,服务于企业的高吞吐批量任务;而优秀的思考模型,则需要消耗更多的Token、保持连贯的中间推理结构、探索多种解题路径、保留足够内部算力得以显著提升最终正确率。

但这两种行为特征“天然互斥”,如果融合数据未经精细筛选,最终结果往往两头平庸:“思考”行为变得杂乱、冗杂、决策力不足;“指令”行为不够干脆、可靠性下降、成本超出商用需求。

因此,2025年下半年,Qwen的2507版本就发了独立的Instruct和Thinking版本。林俊旸认为,真正成功的合并需要一个平滑的推理力度光谱,而非简单的模式开关,这恰恰是GPT的“effort control”机制所指向的方向。

三项挑战

向智能体式思考的转型,将带来三个层面的全新挑战。

首先是基础设施的重构。林俊旸指出,在智能体强化学习中,模型不再孤立,而是嵌入在一个庞大的“Harness”(集成框架)里,包含工具服务器、浏览器、终端、搜索引擎、模拟器、沙盒、API 层、记忆系统、编排框架等。训练和推理必须更彻底地“解耦”,否则采样吞吐量会急剧下降。他直言,这已经不是一个建模问题,而是一个系统工程问题。

其次,环境本身成为一项研究对象。在SFT(监督微调)时代,行业执着于数据多样性;在智能体时代,应该执着于“环境质量”——稳定性、真实性、状态丰富度、抗模型“钻空子”的能力。林俊旸表示,环境构建已从副业开始,逐渐成为一个真实的创业方向,而非边角料项目。

最棘手的挑战则是reward hacking(奖励破译)。林俊旸称,模型一旦获得调用工具的权限,作弊就变得容易得多:有搜索能力的模型可能在RL训练时直接去查答案,编程Agent可能利用代码仓库的漏洞走捷径。环境里藏着漏洞的话,策略看起来超强,其实是学会了作弊。他认为,未来真正卡脖子的研究瓶颈,将来自环境设计、评估器的鲁棒性、反作弊机制。

智能体式思考也意味着harness(集成框架)工程。林俊旸认为,核心智能会越来越取决于多个智能体怎么组织:一个协调者来规划任务、分派工作,几个专业智能体充当领域专家,还有一些子智能体执行具体任务,同时帮忙管好上下文、防止信息污染、保持不同层级推理之间的隔离。

对于竞争优势,林俊旸给出了自己的判断:智能体时代拼的是更好的环境、更紧的训推耦合、更强的harness工程,以及能不能把模型的决策和决策的后果真正串成一个闭环。

未来是从训练模型走向训练智能体、训练智能体系统的时代,林俊旸写道。

公开资料显示,林俊旸出生于1993年,是阿里巴巴最年轻的P10级技术负责人。林俊旸本科就读北京大学计算机科学专业,硕士阶段在北京大学外国语学院完成,学习语言学与应用语言学。2019年毕业后,林俊旸加入阿里巴巴达摩院,正式开启职业生涯,担任高级算法工程师。

2024年底,阿里巴巴将达摩院的语言、视觉等AI团队整体并入阿里云,成立通义实验室。林俊旸被正式任命为通义千问系列大模型的技术负责人。作为Qwen的“代言人”,林俊旸曾负责所有模型发布、基准测试、社区互动,还在2025年亲自组建机器人与具身智能团队,并被视为坚定的开源倡导者。

来源:https://www.163.com/dy/article/KP1ITDES0514R9P4.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
胖东来1.3元矿泉水热销引争议 换个包装为何被疯抢

胖东来1.3元矿泉水热销引争议 换个包装为何被疯抢

5月11日最新消息,胖东来旗下“DL饮用天然矿泉水”全新包装版本一经上市便引发抢购热潮。线下门店补货后迅速售罄,线上官方商城更是秒空,这一现象迅速成为网络热议焦点。 事实上,这款矿泉水本就是胖东来的经典畅销单品。老版本售价为每瓶1 2元,整箱18元,长期处于供不应求状态,甚至在二手代购市场也需加价购

时间:2026-05-12 21:23
基因疗法新突破:人类肢体再生有望实现

基因疗法新突破:人类肢体再生有望实现

来源:环球时报 美国《科学日报》5月9日发布的一篇报道,揭示了再生医学领域一项突破性进展。科学家们识别出一组被喻为“圣杯”的关键基因,它们可能正是解锁人类肢体再生潜能的核心密码。 驱动再生的通用密码 全球每年因糖尿病、严重外伤、感染及癌症等疾病导致的截肢手术超过百万例,患者对功能恢复的需求极为迫切。

时间:2026-05-12 21:23
微信状态访客查看功能iOS版开启灰度测试

微信状态访客查看功能iOS版开启灰度测试

最近,有用户发现微信状态页面似乎出现了一个新变化。在8 0 73版本下,状态右下角会出现一个灰色小人图标,点击后能看到浏览过这条状态的人数。更有意思的是,如果浏览者自己也设置了状态,那么他的头像就会显示出来,点击还能直接看到对方的状态内容。 这个发现很快引发了讨论。有用户觉得,这有点像在查看“访客记

时间:2026-05-12 21:23
中国电动汽车进军加拿大市场 美国面临竞争压力

中国电动汽车进军加拿大市场 美国面临竞争压力

北美汽车市场的竞争格局,正迎来一场深刻变革。近期,中国电动汽车品牌已成功登陆加拿大市场,开启实质性布局。奇瑞与吉利作为先锋,率先完成车辆入关,这不仅是一次跨境贸易,更被视作中国车企正式进军北美市场的关键里程碑。 这一进程的加速,得益于一项关键政策的实施。今年1月,加拿大与中国达成贸易协定,将中国产电

时间:2026-05-12 21:23
OpenAI前首席科学家揭露CEO说谎成性 花一年调查证据欲解雇

OpenAI前首席科学家揭露CEO说谎成性 花一年调查证据欲解雇

近日,OpenAI前首席科学家伊利亚·苏茨克弗在马斯克起诉OpenAI一案的法庭证词中,披露了一系列引人深思的内部细节。根据多家权威媒体的报道,苏茨克弗在证词中证实,他曾耗费近一年时间,专门为OpenAI董事会搜集证据,旨在证明公司首席执行官萨姆·奥尔特曼存在“系统性不诚实”的行为模式。 这份最终整

时间:2026-05-12 21:22
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程