大模型之后,强化学习是智能体的未来方向
聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家,提出了一个相当反主流的核心观点: “LLM只是一个翻译官,真正的Agent核心应该是RL。” 等等,这究竟意味着什么? 202
聊聊近期听到的一期非常有价值的播客——四十二章经邀请到在Meta工作了七年的应用强化学习组负责人朱哲清Bill。这位斯坦福强化学习专业博士、如今正在Agent领域创业的专家,提出了一个相当反主流的核心观点:
“LLM只是一个翻译官,真正的Agent核心应该是RL。”
等等,这究竟意味着什么?
2024年,GPT-4掀起的Agent热潮大家有目共睹:Claude、GPTs、Copilot……几乎所有大型科技公司都在用LLM构建Agent。但Bill却认为这个方向可能走偏了?更令人惊讶的是,他利用自己独特的技术路线,仅用不到1万美金就训练出一个在电商领域超越GPT-4的Agent。
这背后到底隐藏着怎样的奥秘?

当前Agent的痛点
要理解Bill的观点,我们首先要问自己一个问题:现在的Agent真的具备“思考”能力吗?
播客中给出了一个非常生动的类比:想象你走进一座复杂的迷宫。如果是人类,会怎么做?分析当前位置、尝试不同路径、记住死胡同、总结经验教训。但现在的LLM Agent呢?它就像一个只会背诵地图的人——能描述每个路口的样子,能列举所有可能的路径,但无法从错误中学习,更无法优化自身的策略。
所以你会发现:Agent常常重复同样的错误,面对新场景时手足无措,效率始终难以提升。这些问题的根源,在于它缺乏真正的学习能力。
平行宇宙思维
那么RL是如何解决这个问题的?这里有一个有趣的概念:平行宇宙。
想象你在玩《王者荣耀》,每次决策都能预知未来5分钟会发生什么——往这边走会被抓,往那边走能拿龙,支援上路能赢团战。这正是RL的核心能力:并行模拟多个未来,评估每个决策的收益,选择最优的行动路径。
类似的成功案例并不少见:AlphaGo在没有人类棋谱的情况下,通过自我对弈达到了超越人类的水平;DeepSeek-R1最新的模型,没有PRM(过程奖励),没有MCTS(蒙特卡洛),Zero模型直接上RL,就训练出了推理能力。这种“自我博弈”的范式,才是Agent真正突破的方向。
“翻译官”LLM
那是不是说LLM就毫无价值了?恰恰相反。Bill提出了一个绝妙的比喻:LLM就像一个出色的“翻译官”。
想象你是一个天才的围棋选手,但只会下棋,不会表达。你需要有人帮你理解对手的意图,帮你传达想法。这就是LLM的完美定位:输入端,将人类语言转化为RL能够理解的抽象状态;输出端,将RL的决策转化为人类可以理解的语言。两者各司其职,而非让LLM包揽一切。
最后
Bill预测,2025年会出现三个重要趋势:专业领域的Agent将达到专业人士水平,训练成本会进一步降低,应用场景将持续扩大。但更重要的是,这条技术路线给我们带来了一个全新的视角:真正的AI智能体,应该像人类一样——会在“平行宇宙”中规划,会从经验中学习,会不断优化决策。也许,我们之前对Agent的想象,确实需要刷新一下了。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大模型之后,强化学习是智能体的未来方向要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点大模型领域的七个核心术语包括参数、Token、注意力机制、思维链、预训练、微调与提示词,分别对应模型内部变量、文本最小单元、动态权重分配、分步推理、通用语言学习、特定任务适配及用户指令引导,共同构成理解大模型技术的基石。
借助AI人脸识别系统,校园安全实现从被动监控向主动预警升级。通过人脸检测、特征提取与比对,系统可识别陌生人员并联动报警,实时统计人流密度并预警,同时自动监管学生出勤情况,有效提升技防水平。
PureStorage与Meta成功合作开发AI超级计算机RSC,采用FlashArray C和FlashBlade全闪存储方案,提供微秒级超低延迟、99 9999%企业级极高可用性及高密度QLC架构,满足数万亿超大规模示例训练与多模态数据分析需求,支撑元宇宙与增强现实工具研发。
随着技术的快速迭代,人工智能的应用边界持续拓展。在智能语音领域,TTS语音合成(Text-to-Speech)技术取得了令人瞩目的突破。本文将重点介绍微软在此方面的最新成果——探讨如何让AI语音更加逼真自然,甚至能够理解并回应你的表情符号。 在不同的对话场景中,用户对AI语音的期望各有差异。如今,T
- 日榜
- 周榜
- 月榜
热点快看
