AI for Science开年演讲：两位科学家深度解读

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

AI for Science开年演讲：两位科学家深度解读

热心网友时间：2026-06-30

转载

2025年1月12日下午，一场以“AI for Science，AI for Good”为主题的科学盛会，由科学公益机构北京市海淀区智识前沿科技促进中心主办。两位行业领军人物——香港大学计算与数据科学学院院长、忆生科技创始人马毅，以及亚马逊云科技上海人工智能研究院院长张峥，分别围绕智能的本质与大模型时代的教育挑战，带来了开年科学演讲。以下内容为两位专家的核心观点摘编。

两位科学家关于AI for science的开年演讲

马毅：探索智能本质之路

爱因斯坦有句名言：一切都应尽可能简洁，但不能更简单。这句话揭示了智能的本质——我们要找到世界规律最简单、最本质的表达，但若过度简化，便无法解释现象。这个尺度，至关重要。

再看自然界。DNA本身就是第一代“大模型”。生命依靠它一代代自然变异、物竞天择，不断试错与传承。个体并无太多智能，但群体却凭借自然选择展现出智能。这一机制，如今被冠以时髦的名称——强化学习。然而代价巨大，一将功成万骨枯。今天的大模型不也如此？我们不清楚内部机制，各团队疯狂试错，“百模大战”本质上仍是这套逻辑。虽能取得进步，但成本极高，没有几亿美元休想入局。

大约5亿年前，个体出现了大脑神经系统和眼睛，能从外部世界获取信息。寒武纪生命大爆发由此发生。大脑在一定程度上接管了DNA的部分功能，个体智能从此诞生。这是智能机制的一次巨大跃迁——从基因遗传到后天学习。

到了人类，群居带来了信息交流，语言和文字随之出现。智能机制再次跃升：学习不再只是个人之事，经验可以通过语言和文字代代传承。语言文明替代了DNA的另一部分功能。这，就是群体智能。

几千年前，更关键的事件发生了：数学和科学。人类学会了抽象能力，许多知识超越了从经验中提取的范畴。这是专属于人的智能。追溯人工智能的源头，并非五六年前的深度学习，而是20世纪40年代。那时，大批科学家希望机器能模拟动物或人的能力——信息如何存储、如何决策、如何学习。维纳的《控制论》、冯·诺依曼的《博弈论》，以及人工神经网络的第一个数学模型，都诞生于那个时代。在他们看来，智能背后的数学机制是统一的，一旦找到，动物和机器便没有本质区别。

最近十年，尤其是2012年以来，在算力和数据的加持下，深度网络确实表现出色。文本、图像，甚至科学领域的进展突飞猛进。这是对早期机制的工程实现。有人认为既然技术能跑通，是否“白盒子”（可解释的模型）就够了？从工程角度，或许可以容忍。但从科学角度看，这无法接受。懂历史的人都明白，影响力巨大的黑盒子，必然被人利用。几千年来，从未改变。因此，今天我们比任何时候都更需要搞清楚：智能到底是什么？神经网络到底在做什么？

将智能定义为一个科学问题，明确它的数学本质和证明方法，这件事已经迫在眉睫。否则，炒作与恐惧只会愈演愈烈。就像原子弹、病毒，如果对其内在机制一无所知，终将酿成大祸。作为科学界的一员，我们必须彻底讲清楚：智能要学什么？生命为什么能存在？基本机制是什么？然后才是怎么学、为什么需要神经网络、如何高效地将其做好。

有趣的是，每个人，甚至阿猫阿狗，其实都是“牛顿”——只是它们自己不知道。当物体下落时，鸟和猫能精准接住，甚至比人还快。它们利用了以前学到的规律，对外部世界做出精准预测。牛顿的定律，本质上就是在描述阿猫阿狗已经学会的东西，只是语言和形式不同。

如果数学上有一条明确的线，但某个点缺失了，你能根据规律把它填上——这正是AI在做的事。GPT在做“完形填空”，Transformer也一样。它还能去噪：观测到的数据含有噪声，找到规律后可以去除，图像模糊能变清晰。你看到的AI生成的声音和图像，本质上都在做这件事。它还能纠错：观测到的信息与规律不一致，比如物体被遮挡，大脑会立即补全。我们不需要看到全部，就能“完形填空”，修复、还原，甚至远超人类想象。

那么，统一且明确的数学问题就是：从高维数据中学习到数据的分布，然后将其组织好、结构化。大脑始终在做这件事——找到数据间的相关性，发现规律。想象一下，一张百万像素、千万像素空间中的图像，真正需要的结构维度其实很低。宇宙千变万化，但有数学家认为9维或11维的空间就能完全描述它——从大爆炸至今的所有物理现象。规律很简单，只是现象千变万化。

那么，如何学习？从经验到原理，神经网络又在干什么？学习就是找到数据分布，降低熵，发现规律。这就像爬山——目标函数很复杂，但自然界没那么聪明，它知道如何一步步变好。神经网络正是如此：每层都对数据做整理，让输出比输入“好”一点点。最终，它的角色一目了然——做压缩，实现数学算子。你甚至可以推导出这些算子：优化目标函数、求导、梯度下降、Transformer结构……而且推导出的结果更简洁、更有统计和几何意义。一旦你知道了神经网络的目标，就可以设计它，每一层实现什么目的都很清楚，完全可解释、可控，每个参数在做什么一目了然。

最初的白盒计算，如今已经做到几十亿参数。原本靠经验设计的冗余和模糊，现在都可以优化掉。当前的Transformer仍为二次复杂度，但我们可以将其优化成线性复杂度——不是猜出来的，而是算出来的。那些不必要的部分，统统可以去除。

但这还只是“学习”：从外部数据学到分布并组织好。问题在于，我们不确定学到的模型是否正确，有没有遗漏，记录是否完整。如何验证？只有一招——用它去预测。因此，今年诺贝尔奖得主的研究方向，就是想把autoencoding（自编码）做好。虽然他们当时的方法受物理启发，现在看来未必完全正确，但提出的问题是对的。只要明确了我们在做压缩，所有设计都能做成白盒，没有任何猜测成分。与凭经验设计的模型相比，效果一样，甚至更好。

光有encoding（编码）就够了吗？自然界没有这个说法。阿猫阿狗有那种需要预先标注数据、离线训练的“记忆”吗？没有。我们的所有学习都在大脑中实时进行，无法控制外部世界。当一只山羊看到老虎冲过来，如果它想：“等等，我先测一下你的距离和速度”，那它早就被淘汰了。它的学习必须是自主的。为什么现在有人鼓吹“需要数据训练模型”？很简单，卖数据的人想卖数据，卖芯片的人想卖芯片。但小蚂蚁、小动物都能高效自主学习，不需要海量数据——因为它们的机制完全不同。

大脑每天都在学习，而且前面学过的东西不会遗忘。闭环的系统是不会遗忘的。生物的大脑就是这样组织记忆的，研究猴脑可以发现，记忆组织得非常好——正交的空间、稀疏的表达，通过闭环、反馈、自控制来完成学习。这些机制在自然界中随处可见。

年轻人应当多读读历史。不要一上来就觉得人工智能是从2012年深度学习开始的。当年达特茅斯会议的那批年轻人，刻意避开了维纳和冯·诺依曼这些前辈，想做出不一样的东西——动物感知和预测之外的智能。50年代，图灵提出了“图灵测试”，他们想的是人如何解决抽象推理并给出证明。将过去十年深度学习的成果，与40年代机器智能、50年代人类智能的追求放在一起比较，你会发现，距离谁更近？答案是：还差得远。

过去十年，科学主要依赖两种方法：归纳法和演绎法。两者相辅相成。技术上的突飞猛进，主要靠归纳法。但希望未来十年，智能能成为一个真正的科学问题、数学问题，我们要有好的数学理论框架。正如计算机科学界前辈所言：回归理论基石，探寻智能本质。过去那么多训练数据，现在是呼唤英雄的时代——大道至简，找到智能背后的机理、原理和思想。多一点思想，少一点技术。

张峥：大模型时代，教育的新挑战——从流水线到文艺复兴

技术的发展，需要放在人类历史长河中去理解。有人做过非常形象的类比：将过去25万年压缩成一本书，每页250年。你会发现，这本书绝大部分都是空白，农耕社会只在很靠后的位置才出现。这容易给人错觉：人类好像在之前都在“躺平”或发呆。《人类简史》里有一个著名观点：人类的进步（或退步）是因为被小麦驯化。但既然是“简史”，就容易让人误以为这种转变发生得很突然。实际上，从狩猎采集完全过渡到农耕，人类花了一千年。祖先们尝试了各种不同的生活方式，最后才选择了以小麦为主。所以，“小麦驯化人类”不完全错，但回头看历史，我们的祖先在当时做了自己的选择和优化。

我们可以将人类和大模型都看作“智能体”来比较。今天大家熟悉的教育系统，本质上是一条“流水线”：小学、中学、大学、高等教育，走过独木桥再走钢丝，最终成为工程师、医生、律师、科学家、管理者等专门人才。这套流水线的特点，是高度模块化、高度标准化。为什么？因为我们要追求效率和规模。AI时代，可以调整节奏，学得快的快一点，学得慢的慢一点，但人的成长周期是固定的。研究也表明，每一代人的IQ都略有提升——这是因为城市生活和抽象思维训练的结果，并非我们真的变得“更聪明”。这条流水线生产出来的“产品”，往往是在某一特定领域非常专精的专家，对周边领域略有了解。这就是我们现行人才体系的成功标志。

但还有另一种“流水线”，乍一听很没道理——就是背诵。先背，然后再模仿，最后把你“修理”成一个更好的智能体。但这恰恰是大语言模型走过的路。它的第一个任务——预训练——就是不停地“背”下一个单词。关键问题是量太大：GPT-3当时用了150万本书。以我自己为标尺，状态最好的时候一年读20本书，现在一年能读完5本就不错了。估算下来，人一生或许能读1000本书。而GPT-3在3个月内读完了150万本书。

这个训练过程本质上是：第一步，打印下一个字符——不是随机的，而是符合文本统计规律的，给出前X个字符，预测第X+1个；第二步，“跟我做”——模型学习十几个任务，比如总结、问答、头脑风暴、信息抽取等。为什么做这一步？因为我们人类日常工作的类型，其实也就这些。大语言模型厉害的地方在于，一旦学会N个能力，它能组合它们。比如收到一个会议邀请的邮件，会先总结内容，然后用巧妙的方式拒绝或答应——这就是多种能力的组合；第三步，用“胡萝卜+大棒”的方式，通过强化学习做价值对齐，将模型训练得“乖巧”——有帮助、真实、无害。

数据本身的性质，决定了模型的天花板。正态分布告诉我们，许多要素叠加的结果通常都服从正态分布——比如身高，我肯定是三个标准差之外的。但一旦个体之间存在纠缠、扰动、抱团取暖，结果就会变成“长尾分布”。长尾的背后有几重原因：优先连接——我的朋友多，我的发言更容易被听到和点赞；累计效应——有钱的会更有钱，通过反馈增加财富。宇宙里陨石的大小、城市规模、社会网络的热搜，都符合长尾定律。但它不代表稳定——今天的热搜和明天的必然不同，但“有热搜”这件事一定存在。如果哪天世界没有热搜，那才奇怪。

现实世界所有现象都符合长尾分布，大语言模型的语料反映的自然是长尾定律。这意味着，有很多非常简单的故事，但也有一些极其复杂的故事——同属一个品类，比如“冲突”，日常冲突天天有，但国与国之间的冲突几十年一次，原因极其复杂。因此，大语言模型用多少数据、算力能训练到什么程度，是和数据本身的复杂性绑定的。它的性能不是时间问题，而是信息论推导出的上限。结果是什么？当把所有能找到的数据都“滚”过一遍，进步必然放缓。长尾的另一个标志是：想再进步一点点，数据量必须翻倍。坊间传闻GPT-5迟迟出不来、撞墙了，本质上就是这个原因。

大语言模型之所以强大，在于它是一个规模超级大、多层次的“模式补全”机器。它能将原本被打碎的数据切进来，从最基础的单词接龙，到完成任务，再到用思维链拆解问题，最后是目标驱动的程序。在不同层次随意切换、重复。人类是不是也在做类似的事？日常工作中，做到这一点就已经很出色了，很多任务里AI甚至比人类更出色。一个专家与初学者最关键的区别，在于思维的“深度”。大一大二的学生只会编程，后来变成软件架构师——这就是深度提升的体现。

假如将今天的大语言模型早500年送给人类，会怎样？不需要数学、物理，解释一切、解决一切。但结果可能是——今天反而不会有大模型。这是一个非常有意思的悖论。

那么，AI教育到底应该是什么？首先，挑战现有教育的极限。不要禁止学生用AI，放开给他们用。对任何学习目标来说，用上AI，效率提升两倍到十倍是可行的。如果用了AI以后任务变简单了，那就做更难的挑战——比如本学期的作业比之前难一倍，或者用一半的时间完成学习。因为我们得让学生做好进入职场的准备——未来，他们必须和AI一起工作。如果不让他们用，就是浪费时间。但如果让他们用，必须设置新的挑战。这是第一点。

第二点，要学会像文艺复兴时期的科学家那样思考。现在的教育流水线——走过独木桥再走钢丝——产出的都是非常狭隘、非常专业的人才。我们需要把自己打造成“广谱”的人才。举个例子：在没有DNA和摄像头的情况下怎么抓坏蛋？几百年前苏格兰警察困惑这个问题，一位法国警察想出一个办法：测量胳膊长度、面部特征等十几个指标，分发到各分局抓人——这就是最简单的“特征工程”。后来，达尔文的表弟将抓坏蛋的艺术又提高了一倍，建立了数据相关性理论，最终成立了第一个统计系。你看，机器学习里最基本的概念，它的起源、是谁、什么时候发明的，大多数人并不知道。我们太容易变成狭隘的专家。但只要有一点好奇心，就能对广阔的上下文有更好的理解。

第三，我们应该将AI变成一位“好老师”。如果做不到，怎么办？那就提高自己的学习能力——在缺少AI的时代，你的能力要比没有AI时更强。今天开车，没有GPS就不知道怎么走——这说明GPS是一项“糟糕”的技术，因为它削弱了人的能力。我们要反过来：用了AI以后你得变得更聪明。有了AI，你能飞起来；没有AI，你也不能躺平。三个目标是相辅相成的：挑战极限，成为广谱的人，有机会打破独木桥和钢丝的狭隘陷阱。

最后，推荐一本书《THE ACE OF WONDER》。有人问过气球有什么用？富兰克林是这么回答的，关于天文望远镜、化学也是。这本书最后讲到一群诗人，其中一位写了《科学怪人》。他们对技术进步的感受非常相似——一方面兴奋，一方面恐惧。这是18世纪以来不断重演的故事。某种意义上，我们确实在重复自己。

来源:https://www.aiagiai.com/8178.html

上一篇： AI硬控拜年科技感十足的智能拜年新体验

下一篇：这件是比OpenAI发布深度研究更值得关注的大事