具身智能奠基人苏昊复旦首讲:AI未来在于理解物理世界
就在上个月,人工智能学界的一则人事变动引发了广泛关注:此前任教于美国加州大学圣地亚哥分校的苏昊教授,正式加盟复旦大学。这位在ImageNet(全球超大规模图像数据集,深度学习与计算机视觉发展的关键基石)核心贡献者名单中占有一席之地、并被视为具身智能领域共同奠基人的学者,其论文被引次数已约达15万次,在该领域的全球学者中位居前列。
5月27日,这位新任复旦大学浩清特聘教授、通用物理智能研究院首任院长,在复旦大学校庆科学报告会上,面向全校师生作了首场科学报告。这场以“物理智能:从感知到交互”为主题的报告,也被视为他回国后首次完整公开阐述其学术蓝图。
“物理智能”极其稀有
报告一开始,苏昊就抛出了一个朴素却深刻的问题:“过去三十年,科学界投入了大量精力让机器‘看’和‘读’得更明白——识别人脸、理解文字、生成图像。但它真的理解这个世界吗?推一下桌上的杯子,它知道会发生什么吗?如果用两倍的力再推一次,当前最先进的大模型能预判杯子的运动轨迹有何不同吗?”
他回顾了自己自2008年出国至今的研究历程,将其概括为“十八年间只做了一件事——让机器理解物理世界”。从早期的2D图像感知,转向3D形状理解,再到开发可交互的物理仿真平台,一条清晰的路径逐渐显现:要走向通用人工智能,必须把“看”和“做”统一在同一个框架、同一个闭环里。正是基于这些探索,他与多所大学及企业的前沿实验室共同推动了具身智能的学科定义与社区凝聚。
在这个过程中,一个规律浮出水面:当机器人实现简单的物体操作技能时,瓶颈往往在于视觉感知;而复杂操作技能的真正卡点,则在于物理理解。
那么,究竟什么是物理理解?苏昊用了一个人人都经历过的生活场景来解释——搬纸箱。在伸手之前,你的大脑已经下意识地开始判断:这个箱子有多重?箱子结实吗?这些判断在零点几秒内就完成了,你甚至没有意识到这个过程。
“这种能力不是从书本上学到的,而是在无数次触碰、抓握、甚至跌打中打磨出来的。”苏昊指出,即便是目前最先进的AI,面对同样的场景依然无能为力。它可以识别出“纸箱”这个物体,却无法预知“拿起来是什么感觉”。“物理理解的本质,不是‘看到了什么’,而是‘给定一个动作,预测它将带来的物理后果’。”他总结道。
借用认知科学的框架,苏昊将智能分为四个层级:感知智能(看懂图像)、空间智能(理解三维几何结构)、物理智能(理解物理交互和因果)、行为智能(做出决策和规划)。
一个值得注意的事实是,在自然界中,除了人类之外,第三层“物理智能”极其稀有。目前已知只有鸦科鸟类和类人猿等少数动物才具备这种能力。乌鸦懂得往瓶子里投石子让水平上升以便喝水,灵长类动物能够使用工具——这并非感知能力的简单升级,而是一次认知层面的质变。
AI的下一里程碑
“AI的下一个里程碑,恐怕不是更会说话,而是理解物理世界,从而学会操作。”苏昊直言不讳地给出了他的判断。
过去两年流行起来的世界模型主要分为两类:几何世界模型擅长空间理解,视频世界模型擅长视觉生成。但它们的本质,都没有实现真正的“物理理解”,也无法“预测行动后果”。
“真正需要的是第三类——物理交互世界模型。它既要理解空间,又要理解物理规律,能预测行动带来的后果。”苏昊解释道。目前,这类模型仍处于较早期的发展阶段,“不同的技术路线都在同一个地方碰壁——物理智能层。而瓶颈的另一面就是机遇,谁能率先补上物理智能这块短板,谁就有可能定义下一代人工智能的范式。”
这也正是苏昊领衔建设的复旦大学通用物理智能研究院要聚焦的两件大事:第一,推动物理智能的最终实现,构建能理解“推一下桌上的杯子会怎样”的物理交互世界模型;第二,培养下一个十年的AI领军人才。
“我们看重两点:一是高品位的科研眼光,能判断什么问题真正值得去做;二是长周期的探索耐心,能在一个方向上坚持足够久。”苏昊强调,“我们不要只做论文的搬运工,而要做问题的提出者和解决者。”论文不应是目标,而是副产品。真正的标尺,是能否在真实世界中实现智能体的有效行动与自主决策。
他给出了三个关键词:交叉、交互、验证。物理智能本质上是一个多学科交叉问题,涉及数学、物理、计算机、人机交互乃至脑机接口等多个领域。因此,通用物理智能研究院将不设僵化的学科边界,而是围绕要解决的核心问题来汇聚人才。
关于交互,他指出交互数据是物理智能的“石油”。看一万个小时别人骑自行车的视频,自己依然不会骑。必须通过主动交互,才能获得真正的物理经验。研究院将推动仿真平台构建与真实世界数据采集双线并行。
关于验证,他则强调真实世界的表现才是终审法官。仿真环境里跑得再好,到了真实世界一旦失败就不算数。从仿真到真实,是不可省略的关键一步。
复旦大学所拥有的数学和物理学科根基、发展新工科的决心,以及背靠上海丰富产业生态的优势,被苏昊视为开展物理智能研究最需要的“土壤”。
中国有机会主导这一方向
对于物理智能的未来,苏昊持一种“谨慎的乐观”态度。
在他看来,在大语言模型的竞争中,中国更多扮演着追赶者的角色;但物理智能的赛道则完全不同,全世界的研究者几乎都站在同一条起跑线上,核心问题尚未被彻底解决。中国在完整产业链等方面具备独特优势,眼前正是一个有机会主导研究方向、定义技术范式的宝贵窗口期。
与此同时,也需要谨慎看待现状。目前很多演示样例(demo)非常精彩,例如机器人叠衣服、做饭、整理房间。但这些演示与真正的通用能力之间,仍然存在着关键断层。“由于缺乏深度的物理理解,短期内要达到大语言模型那种程度的泛化能力还不现实。但在更长的时间尺度上,方向是清晰的。”苏昊分析道。具身智能未来将深入制造业、服务业、养老行业等诸多领域,我们正在通往一个人机共存的新时代。而连接当下与未来的这座“桥梁”,正建立在今天对物理智能扎实而深入的探索之上。
“没有理解就没有泛化,没有交互就没有理解。”苏昊用这句话概括了他多年人工智能研究最深切的体会。
最后,他引用复旦校训“博学而笃志,切问而近思”来阐释物理智能的研究哲学:“‘切问’,是从切身处发问;‘近思’,是从实践中思考。这和物理智能的方法论有一种天然的契合——不是只坐在那里空想,而是伸出手去触碰,在碰撞中获得对世界的理解。这正是我们在复旦要践行的研究哲学。”
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
小米SU7 GT版本周五正式开启交付
备受期待的小米YU7 GT,即将迎来首批车主交付。小米集团创始人、董事长兼CEO雷军正式官宣,这款定位“跑车级性能”的智能SUV,将于本周五(5月29日)正式启动交付流程。 交付仪式定于5月29日上午10:30,在小米汽车工厂内隆重举行。届时,雷军将携手品牌代言人舒淇共同出席,亲自为首批幸运车主交付
斯坦李AI复活每月读书会带你重温漫威经典
ElevenLabs与斯坦·李宇宙合作,将这位漫画大师的声音、形象及音乐风格整合至AI平台。用户可听到其AI解说的有声内容,声音克隆力求保留温暖与活力。平台同步推出“斯坦·李每月读书会”,首期有声书为《金银岛》。此外还提供受其启发的音乐、图像滤镜及创意模板,供个人非商业使用,商业用途需授权。
索尼Trio家庭影院发布:360智能穹顶声场3.0技术,售价14990元
索尼发布全新家庭影院系统Trio,核心为升级的360智能穹顶声场3 0技术,通过算法模拟专业影院声学环境,提升沉浸感。系统由中置与左右主音箱构成,支持搭配低音炮与后环绕组成套装以增强效果。Trio单系统售价14990元,超旗舰套装定价29990元。
英伟达经典控制面板正式退役 陪伴用户二十年青春落幕
陪伴玩家二十年的英伟达经典控制面板正式退役,不再适配消费级显卡。其所有显卡参数调节功能将统一整合至全新的NVIDIAApp中。该面板自2006年起一直是用户调试显卡的核心工具,现已停止维护。旧版虽可暂存,但重装驱动后将被移除。此次迭代旨在统一管理入口,推动生态现代化。
许鹏就任连尚集团CEO 全面深化人工智能战略布局
连尚集团任命许鹏自2026年5月起出任首席执行官,全面负责日常运营。原首席执行官罗铭转任全球业务总裁。许鹏拥有丰富的数字内容与互联网管理经验,此次调整旨在加速AI战略落地,推动核心业务突破,以专业化管理提升竞争力,实现可持续增长。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

