Yann LeCun谈大模型未来路径:多模态预训练是关键

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心编辑部
在基础模型时代,大模型各项能力的爆发式增长,很大程度上得益于海量文本的预训练。但问题在于,文本本质只是人类对现实世界的一种抽象表达,是对真实世界信息的有损压缩。
借柏拉图《洞穴寓言》的比喻来说:语言模型早已非常擅长描述洞穴墙壁上的影子,却从未真正看到过投射这些影子的实体。它们能够很好地捕捉符号,却难以理解物理世界中高保真的物理规律、几何结构以及因果关系。
除了这种哲学层面的局限,还面临一个更现实的天花板:高质量的文本数据是有限的,并且正逐渐接近枯竭。
相比之下,视觉世界拥有近乎无限的信号来源。那些洞穴之外的信息,记录着现实世界最原始的动态变化,而这些恰恰是语言所无法完整表达的。
因此,未来的发展路径需要走出“影子世界”,直接去建模现实本身。
为此,来自Meta与纽约大学的研究者们转向了统一的多模态预训练:不再将视觉信号视作一种辅助输入,而是将其与语言一样,视为模型中的一等公民。

论文标题:Beyond Language Modeling: An Exploration of Multimodal Pretraining
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Epalea人工智能律师系统:多重证据智能分析与处理方法
2026年3月,一项由Epalea研究团队主导的突破性研究在arXiv预印本平台发布(论文编号:arXiv:2603 15674v1)。该研究提出了一个名为“潜在后验因子”(Latent Posterior Factors, LPF)的创新框架,旨在使人工智能系统能够像资深专家一样,高效、可靠地整合
马萨诸塞大学攻克AI搜索瓶颈 智能助手响应提速10%
当你向ChatGPT这类AI助手提出一个需要多步推理的复杂问题时,是不是常常会看着它反复“转圈圈”搜索,最后还可能给出一个不尽如人意的答案?这背后的症结,或许不在于AI不够“聪明”,而在于它缺乏一套高效的信息管理与整合机制。 一项由马萨诸塞大学阿默斯特分校与Adobe研究院合作完成的研究,正好切中了
中国联通AI研究院攻克扩散模型生成难题实现智能图像生成
在AI图像生成领域,一个长期被忽视的效率问题正逐渐浮出水面。当你向AI模型发出一个指令时,它往往像一个埋头苦干、却缺乏规划的工人,从头到尾都在消耗算力,但其中不少步骤可能是在“空转”。最近,一项由中国联通数据科学与人工智能研究院携手新加坡国立大学、西南石油大学等机构完成的研究,为这个问题带来了突破性
北京大学首创智能视频助手可记忆人物与动作细节
追剧时突然想不起某个角色的过往经历,或者想快速找到剧中人物穿红色衣服的片段——这是许多观众都遇到过的困扰。传统视频播放器无法满足这类需求,观众只能依靠记忆或手动拖拽进度条来寻找。而现有的人工智能技术,虽然能回答关于静态图片的问题,但在处理连续动态的视频时,往往只能分析“当前画面”,缺乏像人类一样形成
中国新能源车企如何凭借自研技术与海外市场实现逆势增长
中国新能源汽车市场的价格竞争已进入深度博弈期。近70款主流车型相继调整市场策略,行业平均利润率被压缩至3 2%,这一数据甚至低于部分传统制造业水平。在这场被业界广泛关注的行业调整中,新兴汽车品牌领跑展现出差异化的发展态势——其不仅在4月实现单月交付量超7 1万辆的突破,更在意大利纯电动汽车市场占据约
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

