大模型之后，强化学习是智能体的未来方向

AI热点日报时间：2026-06-29

热点解读

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家，提出了一个相当反主流的核心观点： “LLM只是一个翻译官，真正的Agent核心应该是RL。” 等等，这究竟意味着什么？ 202

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家，提出了一个相当反主流的核心观点：

“LLM只是一个翻译官，真正的Agent核心应该是RL。”

等等，这究竟意味着什么？

2024年，GPT-4掀起的Agent热潮大家有目共睹：Claude、GPTs、Copilot……几乎所有大型科技公司都在用LLM构建Agent。但Bill却认为这个方向可能走偏了？更令人惊讶的是，他利用自己独特的技术路线，仅用不到1万美金就训练出一个在电商领域超越GPT-4的Agent。

这背后到底隐藏着怎样的奥秘？

LLM之后，Agent的未来是RL！

当前Agent的痛点

要理解Bill的观点，我们首先要问自己一个问题：现在的Agent真的具备“思考”能力吗？

播客中给出了一个非常生动的类比：想象你走进一座复杂的迷宫。如果是人类，会怎么做？分析当前位置、尝试不同路径、记住死胡同、总结经验教训。但现在的LLM Agent呢？它就像一个只会背诵地图的人——能描述每个路口的样子，能列举所有可能的路径，但无法从错误中学习，更无法优化自身的策略。

所以你会发现：Agent常常重复同样的错误，面对新场景时手足无措，效率始终难以提升。这些问题的根源，在于它缺乏真正的学习能力。

平行宇宙思维

那么RL是如何解决这个问题的？这里有一个有趣的概念：平行宇宙。

想象你在玩《王者荣耀》，每次决策都能预知未来5分钟会发生什么——往这边走会被抓，往那边走能拿龙，支援上路能赢团战。这正是RL的核心能力：并行模拟多个未来，评估每个决策的收益，选择最优的行动路径。

类似的成功案例并不少见：AlphaGo在没有人类棋谱的情况下，通过自我对弈达到了超越人类的水平；DeepSeek-R1最新的模型，没有PRM（过程奖励），没有MCTS（蒙特卡洛），Zero模型直接上RL，就训练出了推理能力。这种“自我博弈”的范式，才是Agent真正突破的方向。

“翻译官”LLM

那是不是说LLM就毫无价值了？恰恰相反。Bill提出了一个绝妙的比喻：LLM就像一个出色的“翻译官”。

想象你是一个天才的围棋选手，但只会下棋，不会表达。你需要有人帮你理解对手的意图，帮你传达想法。这就是LLM的完美定位：输入端，将人类语言转化为RL能够理解的抽象状态；输出端，将RL的决策转化为人类可以理解的语言。两者各司其职，而非让LLM包揽一切。

最后

Bill预测，2025年会出现三个重要趋势：专业领域的Agent将达到专业人士水平，训练成本会进一步降低，应用场景将持续扩大。但更重要的是，这条技术路线给我们带来了一个全新的视角：真正的AI智能体，应该像人类一样——会在“平行宇宙”中规划，会从经验中学习，会不断优化决策。也许，我们之前对Agent的想象，确实需要刷新一下了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：大模型之后，强化学习是智能体的未来方向要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2025012373602.html

ai 人工智能

上一篇：Lex Fridman对话Cursor团队：AI重塑编程未来

下一篇：GPT-5人工智能或将成为颠覆一切的革命性技术

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周复旦期末考：51名学生联手挑战让AI交白卷 02 / 本周AI Agent性能慢原因解析：Node.js探针串联模型工具与服务链路 03 / 本周企业AI落地自查十二问指南 04 / 本周我的爱马仕包包养成记从入门到精通经验分享 05 / 本周我开发并开源了一款实用高效AI语音输入法SayIt

01 / 本月复旦期末考：51名学生联手挑战让AI交白卷 02 / 本月AI Agent性能慢原因解析：Node.js探针串联模型工具与服务链路 03 / 本月企业AI落地自查十二问指南 04 / 本月我的爱马仕包包养成记从入门到精通经验分享 05 / 本月我开发并开源了一款实用高效AI语音输入法SayIt

热点快看

07-05 18:01复旦期末考：51名学生联手挑战让AI交白卷 07-05 18:01AI Agent性能慢原因解析：Node.js探针串联模型工具与服务链路 07-05 18:01企业AI落地自查十二问指南 07-05 18:01我的爱马仕包包养成记从入门到精通经验分享 07-05 18:00我开发并开源了一款实用高效AI语音输入法SayIt

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别