Yann LeCun万字演讲:下一代AI系统,基本不做LLM
YannLeCun在哈德逊论坛演讲指出,当前LLM缺乏推理、规划、持久记忆和理解物理世界的能力,人类水平AI仍需多年。MetaFAIR团队已转向下一代AI系统,基本不再开发LLM,致力于目标驱动AI架构与联合嵌入预测架构(JEPA)。
Yann LeCun在哈德逊论坛上发表了一场最新演讲,内容直指核心:他试图探讨我们在通往人类水平人工智能的道路上究竟走到了哪一步。而且,他的立场极其鲜明——他对当前大型语言模型(LLM)的发展方向持基本否定态度。
一个值得关注的细节是,LeCun透露,扎克伯格一直在追问,到底还要多久才能实现人类水平的人工智能?LeCun给他的回答是:即便不是十年,也至少需要好几年。
为什么会如此漫长?在他看来,人类智能有四大基本特征,是目前任何人工智能系统都不具备的:推理能力、规划能力、持久记忆以及对物理世界的理解。即使我们有一天真正构建出具备这些能力的系统,要将它们提升到人类的水平,也需要相当长的时间。
Yann LeCun是Facebook AI研究院(FAIR)的首席AI科学家,也是纽约大学的教授。他获得了众多奖项,包括2018年的ACM图灵奖。他是美国人工智能协会(AAAI)的成员,也是美国国家工程院院士。
接下来,我们直接切入正题,看看他到底说了些什么。
Yann LeCun:“人类水平的AI”
我想和大家聊聊人类水平的AI,聊聊我们如何才能达到那个目标,以及——更重要的——我们不可能通过哪些方式达到。
为何需要人类水平的AI?
先说为什么我们需要它。想象一下,在未来,我们大多数人都会戴着智能眼镜或类似设备,我们会与它们交谈,这些系统里托管着一个或多个智能助手。这就导致了一个很有意思的局面:我们每个人都像老板一样,拥有一群聪明的虚拟员工在为我们工作。当然,这些“员工”不是真人。我们需要构建这样一个系统,目的是增强人类的智力,让我们更有创造力、更高效。但是,要实现这一切,机器必须能理解世界、记住事情、拥有直觉和常识,并且能像人类一样推理和规划。你可能从某些最热情的人那里听到过相反的说法,但现实是,当前的AI系统完全做不到这些。
所以,我们真正需要的是这样的系统:它能学习并建立关于世界的模型,拥有一种关于世界如何运作的“心理模型”。其实每个动物都有这种模型,你家猫的大脑里装的模型,绝对比任何AI系统都复杂得多。我们还需要具备持久记忆的系统(这是当前LLM所不具备的),能规划复杂动作序列的系统(这在今天的LLM里也是不可能的),以及可控且安全的系统。
我在这里要提出一个架构,我称之为“目标驱动AI”。关于这个计划,我大约两年前写了一篇愿景论文,FAIR(Facebook AI研究院)的很多人都在为实现它而努力。以前,FAIR会做一些长期研究和更偏向应用的项目,但一年半以前,Meta成立了一个叫GenAI的产品部门,专门进行AI产品的应用研发。所以现在的FAIR已经被重新定向,专注于更长期、下一代AI系统的研究。说白了,我们基本上不再做LLM了。
当前AI系统的局限性:自监督学习的瓶颈
现在的AI之所以能成功,包括LLM和过去五六年的很多其他系统,都依赖一套我称之为“自监督学习”的技术。它的一个典型做法是通过“从损坏中重建”。我们拿一段文本,通过删除单词或修改某些词来把它弄坏,然后训练一个巨大的神经网络,让它去重建完整的、未损坏的版本。这本质上就是一个生成模型。这个过程本身没有问题。
但关键在于,LLM是这种模型的一个特例。它的架构被设计成只看左边的信息,不能看未来的信息。它预测下一个词,然后把这个词移回输入,再预测下一个,如此往复。这就是自回归预测。这个概念一点也不新,从香农时代就有了。改变的是,现在我们有了巨大的神经网络和海量的训练数据,看起来很厉害,但自回归预测有一个根本性的局限——这里面根本没有真正意义上的推理。而且,它只适用于那些能被离散化的数据,比如符号、标记、单词。
所以,我们距离人类水平的智力还差得很远。我指的还不是那种超人的智力,就连你家猫或者狗能做到的事,都完全超出了当前AI的能力范围。你想想,一个10岁的孩子怎么就能在第一次尝试时学会收拾餐桌、装满洗碗机?一个17岁的孩子花大约20小时练车就能学会开车,可我们现在连5级自动驾驶都搞不定,更别提能收拾餐桌、装满洗碗机的家用机器人了。这意味着我们确实缺少了一些关键的东西,否则这些早该实现了。
莫拉维克悖论与学习的挑战
我们总是碰到一个现象,叫“莫拉维克悖论”。就是说,那些对我们人类来说微不足道、我们甚至不觉得那是“智能”的事,让机器来做却难如登天。但像高级复杂的抽象思维,比如操纵语言、下国际象棋,机器好像还挺轻松。
原因可能在此:一个LLM通常训练在20万亿个标记上,这大概是互联网上所有公开文本的总量,我们人类读个几十万年都读不完。但一个4岁孩子清醒的总时间是1.6万个小时,这大概只相当于30分钟YouTube上传的数据量。他通过视神经接收的数据大约有10^14字节,跟最大的LLM训练数据量级差不多。这说明什么呢?首先,它说明了我们永远不可能仅仅通过训练文本来达到接近人类水平的智力,这条路根本走不通。
反驳的观点可能会说,视觉信息是很冗余的。没错,冗余正是自监督学习所需要的。只有从冗余数据中,学习才能抓住底层的结构。所以,我们必须训练系统通过观看视频,或者直接生活在现实世界中,来学习常识和物理直觉。
迈向更强大的AI:超越像素级预测
我们需要的架构与LLM或前馈神经网络有很大的不同。它的推理过程不仅仅是运行几层神经网络,而是运行一个优化算法。概念上看起来是这样的:你看到一个观察结果,感知系统把它处理成世界的状态。然后,这个世界模型允许你在想象中尝试一系列动作,并预测这些动作会带来什么后果。接着,把这些预测结果送入一堆目标函数去衡量——比如任务完成度、是否安全等等。最终,推理过程就是找到那个能让所有目标最小化的动作序列。
这个通过优化进行推理的想法在最优控制理论里已经存在了60多年,叫“模型预测控制”。旧瓶装新酒,这里的新东西是我们正在学习世界模型,我们正在学习能提取世界抽象表示的感知系统。
更有趣的,也是人类和很多动物都能做到的事,是分层规划。比如你要计划一次从纽约到巴黎的旅行,你不会用低级肌肉控制来规划每一步。你会先在高层次上计划:先去机场,坐飞机。然后细分:怎么去机场?走到街上拦出租车。再细分:怎么走到街上?从椅子上站起来,走到门口,打开门…… 如何用AI系统实现这种分层规划,目前完全是一个未解决的问题,我们甚至不知道该怎么办。这似乎是智能行为的一个巨大的门槛。
那么,如何训练这个世界模型呢?这确实是巨大的挑战。我们试过让系统通过预测视频中的像素来学习常识,但试了10年,结果是彻底的失败。为什么?因为未来有无数种可能性。在文本这种离散空间里,你还可以预测下一个词的概率分布,但视频帧呢?我们根本没有好办法来表示视频帧上的概率分布。这任务几乎是不可能的。
联合嵌入预测架构 (JEPA):一种新的希望
所以,解决这个问题的方法就是我所说的“联合嵌入预测架构”。核心思路是:放弃预测像素,转而去学习一个关于世界状态的抽象表示,然后在这个表示空间里进行预测。具体做法是:把被损坏的x输入一个编码器得到表示,把原始的y输入另一个编码器得到表示,然后训练系统从x的表示去预测y的表示。
这里有一个技术难点,如果不加限制,系统会崩溃,学一个常数表示让预测变得超级简单,但什么信息也学不到。那怎么办?我们需要一种成本函数,保证编码器提取的表示既有足够的信息量,又能在这基础上实现良好的预测。经过大量的实验证据表明,要学习图像的良好表示,最佳方法就是用这种联合嵌入架构。所有试图通过重建来学习图像表示的方法,效果都不好。
所以,我在这里要说几个与主流相反的看法:放弃生成模型,改用这些JEPA架构;放弃概率模型,改用基于能量的模型;放弃对比方法;还有放弃强化学习。而这四大支柱恰恰是当今机器学习界最流行的。所以,我现在可能不怎么受欢迎。
在实践中,我们有多种防止系统崩溃的方法。比如,确保编码器输出的变量有非零的标准差,同时让这些变量互不相关。听起来有点技术,但就是这么回事。还有一种“蒸馏式”的方法,它以一种有点神秘的方式工作,效果也很好。
我们有比较新的工作,就是在视频上应用这种JEPA架构。通过掩码掉视频的一部分,在表示空间里做预测,这种方法对于动作识别等下游任务非常有效。
如果我们在这个项目上取得成功(这可能需要好几年,甚至十年,扎克伯格总在问我这个时间),我们将拥有真正能推理、能规划、能理解物理世界的系统。它们会跟我们所有数字世界的互动,回答我们所有的问题,一直陪伴我们,成为全人类知识的宝库。这更像是一种基础设施,就像互联网一样。
开源AI:构建开放的未来
最后,我想强调,这个AI平台必须是开源的。因为我们需要这些AI助手是多样化的,要理解世界上所有的语言、文化和价值体系。你不可能指望从美国西海岸或东海岸的某一家公司生产的单一助手里获得这一切。这需要全世界的贡献。
当然,训练基础模型极其昂贵,只有少数公司能做到。所以,如果像Meta这样的公司能开源这些基础模型,那么全世界都可以根据自己的目的去微调它们。这不仅仅是好主意,它对于维护文化多样性,甚至对于维护民主都是必要的。训练和微调可以通过众包,由创业公司和其他公司的生态系统来完成。实际上,正是这些开源AI模型的可用性,才真正启动了AI创业公司的生态系统。
达到人类水平的AI到底需要多长时间?我不知道,可能是几年到几十年。这其中的差异巨大,有很多问题等着我们去解决,而且大概率比我们想象的要难。它绝对不会在某一天突然爆发——我们不会在某天突然发现AI的秘密,然后打开机器就拥有了超级智能,然后被它干掉。不会的。机器最终会超越人类的智力,但它们会处于我们的控制之下,因为它们的目标是驱动型的,我们给它们目标,它们就去实现这些目标。就像在座的很多领导者,你们身边都有比你们聪明的人在工作,但这不等于他们想支配或接管一切。
这就是我的故事。风险当然存在,不过我们可以在问答环节再深入讨论。非常感谢大家。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Yann LeCun万字演讲:下一代AI系统,基本不做LLM要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点腾讯云基于Threejs搭建了3D互动虚拟展厅,集成ChatGPT虚拟人聊天功能,AINPC可理解用户意图并专业答复。该平台支持用户创建场景、多人实时互动、实时语音视频聊天,跨平台低消耗,已落地虚拟展厅、办公、会议室、校园等多种场景。
整理访谈记录时,要求AI输出修改理由需设计高颗粒度提示词:明确角色格式,限定理由具体到原文位置、认知逻辑或转录缺陷,约束禁止虚构修改,嵌入示例并强制分栏呈现,避免空泛表述。
光耦输入与输出的映射具有非线性特性,包括低电流死区、线性工作区和高电流饱和区。电流传输比动态变化,高频传输受寄生电容和上拉电阻影响导致延迟。长期运行中红外LED老化引起CTR衰减,需采用降额设计确保系统稳定。
Kimi学术搜索模式可通过Kimi+进入,构造含时间范围、数据库和文件类型的指令获得最新论文;上传论文片段触发反向溯源,启用探索版收紧时间粒度,利用DOI直连Crossref验证开放获取状态,确保结果精准可靠。
- 日榜
- 周榜
- 月榜
热点快看
