面包屑图标 当前位置: 首页
AI资讯
热点详情

大模型之后,强化学习是智能体的未来方向

AI热点日报
AI热点日报时间:2026-06-29
热点解读

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家,提出了一个相当反主流的核心观点: “LLM只是一个翻译官,真正的Agent核心应该是RL。” 等等,这究竟意味着什么? 202

聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家,提出了一个相当反主流的核心观点:

“LLM只是一个翻译官,真正的Agent核心应该是RL。”

等等,这究竟意味着什么?

2024年,GPT-4掀起的Agent热潮大家有目共睹:Claude、GPTs、Copilot……几乎所有大型科技公司都在用LLM构建Agent。但Bill却认为这个方向可能走偏了?更令人惊讶的是,他利用自己独特的技术路线,仅用不到1万美金就训练出一个在电商领域超越GPT-4的Agent。

这背后到底隐藏着怎样的奥秘?

LLM之后,Agent的未来是RL!

当前Agent的痛点

要理解Bill的观点,我们首先要问自己一个问题:现在的Agent真的具备“思考”能力吗?

播客中给出了一个非常生动的类比:想象你走进一座复杂的迷宫。如果是人类,会怎么做?分析当前位置、尝试不同路径、记住死胡同、总结经验教训。但现在的LLM Agent呢?它就像一个只会背诵地图的人——能描述每个路口的样子,能列举所有可能的路径,但无法从错误中学习,更无法优化自身的策略。

所以你会发现:Agent常常重复同样的错误,面对新场景时手足无措,效率始终难以提升。这些问题的根源,在于它缺乏真正的学习能力。

平行宇宙思维

那么RL是如何解决这个问题的?这里有一个有趣的概念:平行宇宙。

想象你在玩《王者荣耀》,每次决策都能预知未来5分钟会发生什么——往这边走会被抓,往那边走能拿龙,支援上路能赢团战。这正是RL的核心能力:并行模拟多个未来,评估每个决策的收益,选择最优的行动路径。

类似的成功案例并不少见:AlphaGo在没有人类棋谱的情况下,通过自我对弈达到了超越人类的水平;DeepSeek-R1最新的模型,没有PRM(过程奖励),没有MCTS(蒙特卡洛),Zero模型直接上RL,就训练出了推理能力。这种“自我博弈”的范式,才是Agent真正突破的方向。

“翻译官”LLM

那是不是说LLM就毫无价值了?恰恰相反。Bill提出了一个绝妙的比喻:LLM就像一个出色的“翻译官”。

想象你是一个天才的围棋选手,但只会下棋,不会表达。你需要有人帮你理解对手的意图,帮你传达想法。这就是LLM的完美定位:输入端,将人类语言转化为RL能够理解的抽象状态;输出端,将RL的决策转化为人类可以理解的语言。两者各司其职,而非让LLM包揽一切。

最后

Bill预测,2025年会出现三个重要趋势:专业领域的Agent将达到专业人士水平,训练成本会进一步降低,应用场景将持续扩大。但更重要的是,这条技术路线给我们带来了一个全新的视角:真正的AI智能体,应该像人类一样——会在“平行宇宙”中规划,会从经验中学习,会不断优化决策。也许,我们之前对Agent的想象,确实需要刷新一下了。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大模型之后,强化学习是智能体的未来方向要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025012373602.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 18:02
大模型领域7个常见术语详解

大模型领域的七个核心术语包括参数、Token、注意力机制、思维链、预训练、微调与提示词,分别对应模型内部变量、文本最小单元、动态权重分配、分步推理、通用语言学习、特定任务适配及用户指令引导,共同构成理解大模型技术的基石。

AI热点2026-07-05 18:02
AI时代如何用人脸识别系统保障校园安全

借助AI人脸识别系统,校园安全实现从被动监控向主动预警升级。通过人脸检测、特征提取与比对,系统可识别陌生人员并联动报警,实时统计人流密度并预警,同时自动监管学生出勤情况,有效提升技防水平。

AI热点2026-07-05 18:02
Pure Storage与Meta联合开发AI超级计算机

PureStorage与Meta成功合作开发AI超级计算机RSC,采用FlashArray C和FlashBlade全闪存储方案,提供微秒级超低延迟、99 9999%企业级极高可用性及高密度QLC架构,满足数万亿超大规模示例训练与多模态数据分析需求,支撑元宇宙与增强现实工具研发。

AI热点2026-07-05 18:02
微软AI TTS语音合成技术最新进展

随着技术的快速迭代,人工智能的应用边界持续拓展。在智能语音领域,TTS语音合成(Text-to-Speech)技术取得了令人瞩目的突破。本文将重点介绍微软在此方面的最新成果——探讨如何让AI语音更加逼真自然,甚至能够理解并回应你的表情符号。 在不同的对话场景中,用户对AI语音的期望各有差异。如今,T

延伸阅读