汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索
在刚刚落幕的RL China 2025开幕式上,一场跨越地域的思想对话备受瞩目。伦敦大学学院的汪军教授与图灵奖得主、被誉为“强化学习之父”的Richard Sutton,从学科根基出发,共同探讨了智能的本质与未来方向。这场对话,不仅关乎技术路径,更触及了人工智能研究的初心与使命。
作为强化学习领域的奠基人,Richard Sutton在2024年获得图灵奖,标志着强化学习作为AI核心分支的价值得到了最高认可。然而,在行业因大模型而喧嚣的当下,这位先驱者却发出了不同的声音。
01 对智能的思考
对话从Sutton新创建的开放思维研究所(Openmind Research Institute)开始。其使命非常纯粹:理解智能,并与世界分享这种理解。Sutton坦言,当前AI领域的快速发展,尤其是地缘整治化和产业资本的涌入,在某种程度上分散了人们对基础科学的关注。“这对科学发展来说并非真正有益。”他说道。
在他看来,科学的成功为领域带来了资金,但也改变了其性质。工业界倾向于关注已知的、能快速落地的事情;而科学界则应聚焦于那些我们还不知道如何解决的问题。“我们必须对此进行反击,”Sutton强调,“努力将目光投向理解思维如何运作、智能如何运作这一重大目标。”
话题自然转向了当前占据绝对主导地位的大模型。Sutton的观点非常明确:大模型并非理解智能的途径。
“LLM确实很有用,但它们在运行过程中是没有学习能力的。”他解释道,机器学习被用于创建它们,但一旦训练完成,学习就停止了。更根本的问题是,LLM没有目标,也没有奖励。“它们只是在模仿人类,而人类是有目标的。LLM本身没有目标,也无法判断自己说的话是对是错。”
他提出了一个核心原则:你不应该要求你的人工智能知道一些它自己都无法判断正确的事情。智能体必须能够验证它的知识,而LLM无法做到这一点,因为它们没有持续的经验流与之比较。
这就引向了Sutton坚信的核心:从经验中学习。他援引了艾伦·图灵在1947年的一篇论述,其中就提到了“能够从经验中学习的机器”。“我们现在依然渴望这样的机器,这仍然是核心,也是我们应该努力的方向。这就是强化学习的意义所在,而这一点正是LLM所完全缺乏的。”
02 强化学习的突破路径
那么,什么是“经验”?Sutton给出了一个简洁而根本的定义:就是智能体在世界中生存时接收到的真实数据——采取行动、进行观察、感受奖励。这三组时间序列构成了全部。
“至少从智能体的视角看,除了你接收和生成的数据之外,再无其他东西。”Sutton说,“空间、物体、物理规律这些概念,不过是你为了解释自身经验而编造的故事。经验是根本性的,它是智能的核心。”
基于此,强化学习提出了一个极具简化魅力的“奖励假设”:所有目标与意图,都可以被理解为对一种名为“奖励”的标量信号的累积和的期望值进行最大化。
“这听起来可能显得浅薄,甚至格局不大,”Sutton承认,“但我认为,这恰恰是它极具智慧的部分——它非常清晰,高度简化,却又似乎足够完备。”他提到阿尔伯塔大学研究者发表的论文《Settling the Reward Hypothesis》,论证了单一奖励信号的充分性,复杂的多目标或风险设定未必能让系统更强大。

当然,如何定义奖励本身就是挑战。对于自然生物,奖励是进化产生的,存在于身体内部(如下丘脑)。对于工程系统,设计者必须想清楚目标并将其转化为奖励信号。“难点部分在于,我们自己往往都难以确定最想让人工智能完成的到底是什么。”Sutton提醒,要警惕一种常见错误:把问题的解决方案直接塞进奖励里。例如在围棋中,只应为“赢”设置奖励,而不是为“做眼”设置奖励,后者改变了问题的本质。
关于实现路径,Sutton提到了他与同事撰写的“阿尔伯塔人工智能研究计划”。这是一个包含12个步骤的路线图,旨在从当前阶段迈向完整的智能体。计划完全以奖励为核心,前期步骤涉及使用函数近似进行高效学习、持续学习、元学习等,最终目标是打造一个具备推理、规划与学习能力的完整强化学习智能体。

03 通用智能体的认知转向
当讨论转向如何构建更通用的智能体时,Sutton首先澄清了一个关键概念:他不认同“任务”这个说法。“我们只是生活而已。我不觉得我有什么任务是需要单独奖励的,我有自己的人生,有自己的奖励信号,它会一直持续下去。”
他更倾向于“技能”的概念,如行走、导航等。通用性至关重要,但泛化应发生在不同“状态”之间,而非不同“任务”之间。智能体学习在某个状态下该做什么,会影响它对其他状态下正确行为的判断。
关于元学习,Sutton认为其主要例子是自动化调整学习过程中的超参数,例如每个权重独有的步长。他特别提到了一个1992年的算法——增量Delta-Bar-Delta,用于设置步长,从而决定泛化如何发生。让系统自主学习如何泛化,本质上就是在学习偏置。
谈到当前主导的梯度下降法,Sutton肯定其威力,但也指出了局限:“当我们熟练掌握梯度下降后,就开始觉得它无比出色,甚至可能认为一切学习问题都能用梯度下降解决。而这恰恰是错误所在,我们陷入了只用梯度下降,而排除所有其他可能性的局限中。”
他认为智能的基本原则有限,梯度下降、时序差分学习和搜索是其中关键。他尤其强调搜索的重要性,并介绍了他们在持续学习中的突破:持续反向传播。这种方法在整个训练过程中持续注入随机权重,将搜索成分融入梯度下降,其威力远大于单独使用梯度下降。
作为时序差分学习的发明者,Sutton分享了这一思想的起源:它并非源于控制理论,而是脱胎于心理学中的经典条件反射研究。“如果你仔细梳理所有的动物实验,试着从中提炼规律,就必然会走向时序差分学习。”后来才发现,从动态规划的角度看同样说得通。这种统一让他感到欣慰:“人工智能、控制理论、神经科学这些原本截然不同的学科,正成功地走向融合。这就像终于触碰到了智能最根本的东西。”
对于无模型与基于模型的方法之争,Sutton认为两者都需要。“我们既希望直接从经验中学习,也希望间接从经验中学习。我们希望自己的经验能形成一个世界模型,然后利用这个模型来规划行为上的改进。”实现二者的统一,正是追求的“圣杯”。
在对话的最后,Sutton对中国的强化学习社区以及所有研究者表达了乐观的展望。他认为,得益于计算能力的普及,当下正是理解思维如何运作的绝佳时代。
“能生活在这样一个时代,实在太令人惊叹了。”他说道,“我们将能够设计出与人类自身一样强大、甚至可能更强大的智能体,这真的是一件无比激动人心的大事。”
他预见未来虽有挑战,但人工智能整体将是积极的,它将带来更深入的科学研究、更透彻的自我认知,并延续人类增强自身的历程。“电话增强沟通,眼镜增强视力,语言增强交流。人工智能实际上就是这一增强过程的延续。我们应当为从事这项工作而感到由衷的喜悦,并为了全人类的福祉去推进它的发展。”Sutton总结道。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
网易CodeWave人工智能开发平台重塑企业智能研发流程
2025年10月14日,网易CodeWave在主题沟通会上重磅发布了“用AI重构研发方式”的战略愿景。会上,一系列全新的智能开发能力正式亮相,旨在实现从需求分析、产品设计到代码开发、部署运维及迭代优化的全流程智能化赋能。这不仅是开发工具的升级,更代表了企业级软件开发范式的深刻演进。作为专注于企业级市
汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索
在刚刚落幕的RL China 2025开幕式上,一场跨越地域的思想对话备受瞩目。伦敦大学学院的汪军教授与图灵奖得主、被誉为“强化学习之父”的Richard Sutton,从学科根基出发,共同探讨了智能的本质与未来方向。这场对话,不仅关乎技术路径,更触及了人工智能研究的初心与使命。 作为强化学习领域的
高德地图AI应跳出传统竞争思维专注创新
高德进军到店业务的消息,近期在行业内引发了广泛关注。昨日,官方正式揭晓答案——并非重启口碑业务,而是推出了“高德扫街榜”。虽然方向已明,但随之而来的疑问却更多了。 过去数月,外卖市场的补贴竞争异常激烈。如今高德加码本地生活服务,是否意味着新一轮补贴大战即将开启?十年前,美团在团购领域脱颖而出,如今阿
Win11任务栏位置自定义设置与文件搜索效率优化指南
微软向Windows预览体验计划成员推送了Win11系统的新一轮更新,重点改进了任务栏的个性化设置与搜索功能。用户现在可以自由将任务栏放置在屏幕的上下左右任意一边,并可选更紧凑的“小任务栏”模式以节省屏幕空间。同时,系统搜索框的逻辑得到优化,在用户查找内容时,会优先显示高度匹配的本地文件和应用程序,
开发者如何抓住GDC千亿商机与财富机遇
人工智能创业者Steven回顾艰辛历程,从技术理想转向现实挑战,面临融资与团队生存压力。全球开发者先锋大会汇聚顶尖投资机构,提供项目路演与资本对接平台,成为其寻求突破的关键机遇。大会旨在探索大模型产业化落地,推动商业闭环,助力开发者实现价值。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

