当前位置: 首页
AI教程
AI for Science开年演讲:两位科学家深度解读

AI for Science开年演讲:两位科学家深度解读

热心网友 时间:2026-06-30
转载

2025年1月12日下午,一场以“AI for Science,AI for Good”为主题的科学盛会,由科学公益机构北京市海淀区智识前沿科技促进中心主办。两位行业领军人物——香港大学计算与数据科学学院院长、忆生科技创始人马毅,以及亚马逊云科技上海人工智能研究院院长张峥,分别围绕智能的本质与大模型时代的教育挑战,带来了开年科学演讲。以下内容为两位专家的核心观点摘编。

两位科学家关于AI for science的开年演讲

马毅:探索智能本质之路

爱因斯坦有句名言:一切都应尽可能简洁,但不能更简单。这句话揭示了智能的本质——我们要找到世界规律最简单、最本质的表达,但若过度简化,便无法解释现象。这个尺度,至关重要。

再看自然界。DNA本身就是第一代“大模型”。生命依靠它一代代自然变异、物竞天择,不断试错与传承。个体并无太多智能,但群体却凭借自然选择展现出智能。这一机制,如今被冠以时髦的名称——强化学习。然而代价巨大,一将功成万骨枯。今天的大模型不也如此?我们不清楚内部机制,各团队疯狂试错,“百模大战”本质上仍是这套逻辑。虽能取得进步,但成本极高,没有几亿美元休想入局。

大约5亿年前,个体出现了大脑神经系统和眼睛,能从外部世界获取信息。寒武纪生命大爆发由此发生。大脑在一定程度上接管了DNA的部分功能,个体智能从此诞生。这是智能机制的一次巨大跃迁——从基因遗传到后天学习。

到了人类,群居带来了信息交流,语言和文字随之出现。智能机制再次跃升:学习不再只是个人之事,经验可以通过语言和文字代代传承。语言文明替代了DNA的另一部分功能。这,就是群体智能。

几千年前,更关键的事件发生了:数学和科学。人类学会了抽象能力,许多知识超越了从经验中提取的范畴。这是专属于人的智能。追溯人工智能的源头,并非五六年前的深度学习,而是20世纪40年代。那时,大批科学家希望机器能模拟动物或人的能力——信息如何存储、如何决策、如何学习。维纳的《控制论》、冯·诺依曼的《博弈论》,以及人工神经网络的第一个数学模型,都诞生于那个时代。在他们看来,智能背后的数学机制是统一的,一旦找到,动物和机器便没有本质区别。

最近十年,尤其是2012年以来,在算力和数据的加持下,深度网络确实表现出色。文本、图像,甚至科学领域的进展突飞猛进。这是对早期机制的工程实现。有人认为既然技术能跑通,是否“白盒子”(可解释的模型)就够了?从工程角度,或许可以容忍。但从科学角度看,这无法接受。懂历史的人都明白,影响力巨大的黑盒子,必然被人利用。几千年来,从未改变。因此,今天我们比任何时候都更需要搞清楚:智能到底是什么?神经网络到底在做什么?

将智能定义为一个科学问题,明确它的数学本质和证明方法,这件事已经迫在眉睫。否则,炒作与恐惧只会愈演愈烈。就像原子弹、病毒,如果对其内在机制一无所知,终将酿成大祸。作为科学界的一员,我们必须彻底讲清楚:智能要学什么?生命为什么能存在?基本机制是什么?然后才是怎么学、为什么需要神经网络、如何高效地将其做好。

有趣的是,每个人,甚至阿猫阿狗,其实都是“牛顿”——只是它们自己不知道。当物体下落时,鸟和猫能精准接住,甚至比人还快。它们利用了以前学到的规律,对外部世界做出精准预测。牛顿的定律,本质上就是在描述阿猫阿狗已经学会的东西,只是语言和形式不同。

如果数学上有一条明确的线,但某个点缺失了,你能根据规律把它填上——这正是AI在做的事。GPT在做“完形填空”,Transformer也一样。它还能去噪:观测到的数据含有噪声,找到规律后可以去除,图像模糊能变清晰。你看到的AI生成的声音和图像,本质上都在做这件事。它还能纠错:观测到的信息与规律不一致,比如物体被遮挡,大脑会立即补全。我们不需要看到全部,就能“完形填空”,修复、还原,甚至远超人类想象。

那么,统一且明确的数学问题就是:从高维数据中学习到数据的分布,然后将其组织好、结构化。大脑始终在做这件事——找到数据间的相关性,发现规律。想象一下,一张百万像素、千万像素空间中的图像,真正需要的结构维度其实很低。宇宙千变万化,但有数学家认为9维或11维的空间就能完全描述它——从大爆炸至今的所有物理现象。规律很简单,只是现象千变万化。

那么,如何学习?从经验到原理,神经网络又在干什么?学习就是找到数据分布,降低熵,发现规律。这就像爬山——目标函数很复杂,但自然界没那么聪明,它知道如何一步步变好。神经网络正是如此:每层都对数据做整理,让输出比输入“好”一点点。最终,它的角色一目了然——做压缩,实现数学算子。你甚至可以推导出这些算子:优化目标函数、求导、梯度下降、Transformer结构……而且推导出的结果更简洁、更有统计和几何意义。一旦你知道了神经网络的目标,就可以设计它,每一层实现什么目的都很清楚,完全可解释、可控,每个参数在做什么一目了然。

最初的白盒计算,如今已经做到几十亿参数。原本靠经验设计的冗余和模糊,现在都可以优化掉。当前的Transformer仍为二次复杂度,但我们可以将其优化成线性复杂度——不是猜出来的,而是算出来的。那些不必要的部分,统统可以去除。

但这还只是“学习”:从外部数据学到分布并组织好。问题在于,我们不确定学到的模型是否正确,有没有遗漏,记录是否完整。如何验证?只有一招——用它去预测。因此,今年诺贝尔奖得主的研究方向,就是想把autoencoding(自编码)做好。虽然他们当时的方法受物理启发,现在看来未必完全正确,但提出的问题是对的。只要明确了我们在做压缩,所有设计都能做成白盒,没有任何猜测成分。与凭经验设计的模型相比,效果一样,甚至更好。

光有encoding(编码)就够了吗?自然界没有这个说法。阿猫阿狗有那种需要预先标注数据、离线训练的“记忆”吗?没有。我们的所有学习都在大脑中实时进行,无法控制外部世界。当一只山羊看到老虎冲过来,如果它想:“等等,我先测一下你的距离和速度”,那它早就被淘汰了。它的学习必须是自主的。为什么现在有人鼓吹“需要数据训练模型”?很简单,卖数据的人想卖数据,卖芯片的人想卖芯片。但小蚂蚁、小动物都能高效自主学习,不需要海量数据——因为它们的机制完全不同。

大脑每天都在学习,而且前面学过的东西不会遗忘。闭环的系统是不会遗忘的。生物的大脑就是这样组织记忆的,研究猴脑可以发现,记忆组织得非常好——正交的空间、稀疏的表达,通过闭环、反馈、自控制来完成学习。这些机制在自然界中随处可见。

年轻人应当多读读历史。不要一上来就觉得人工智能是从2012年深度学习开始的。当年达特茅斯会议的那批年轻人,刻意避开了维纳和冯·诺依曼这些前辈,想做出不一样的东西——动物感知和预测之外的智能。50年代,图灵提出了“图灵测试”,他们想的是人如何解决抽象推理并给出证明。将过去十年深度学习的成果,与40年代机器智能、50年代人类智能的追求放在一起比较,你会发现,距离谁更近?答案是:还差得远。

过去十年,科学主要依赖两种方法:归纳法和演绎法。两者相辅相成。技术上的突飞猛进,主要靠归纳法。但希望未来十年,智能能成为一个真正的科学问题、数学问题,我们要有好的数学理论框架。正如计算机科学界前辈所言:回归理论基石,探寻智能本质。过去那么多训练数据,现在是呼唤英雄的时代——大道至简,找到智能背后的机理、原理和思想。多一点思想,少一点技术。

张峥:大模型时代,教育的新挑战——从流水线到文艺复兴

技术的发展,需要放在人类历史长河中去理解。有人做过非常形象的类比:将过去25万年压缩成一本书,每页250年。你会发现,这本书绝大部分都是空白,农耕社会只在很靠后的位置才出现。这容易给人错觉:人类好像在之前都在“躺平”或发呆。《人类简史》里有一个著名观点:人类的进步(或退步)是因为被小麦驯化。但既然是“简史”,就容易让人误以为这种转变发生得很突然。实际上,从狩猎采集完全过渡到农耕,人类花了一千年。祖先们尝试了各种不同的生活方式,最后才选择了以小麦为主。所以,“小麦驯化人类”不完全错,但回头看历史,我们的祖先在当时做了自己的选择和优化。

我们可以将人类和大模型都看作“智能体”来比较。今天大家熟悉的教育系统,本质上是一条“流水线”:小学、中学、大学、高等教育,走过独木桥再走钢丝,最终成为工程师、医生、律师、科学家、管理者等专门人才。这套流水线的特点,是高度模块化、高度标准化。为什么?因为我们要追求效率和规模。AI时代,可以调整节奏,学得快的快一点,学得慢的慢一点,但人的成长周期是固定的。研究也表明,每一代人的IQ都略有提升——这是因为城市生活和抽象思维训练的结果,并非我们真的变得“更聪明”。这条流水线生产出来的“产品”,往往是在某一特定领域非常专精的专家,对周边领域略有了解。这就是我们现行人才体系的成功标志。

但还有另一种“流水线”,乍一听很没道理——就是背诵。先背,然后再模仿,最后把你“修理”成一个更好的智能体。但这恰恰是大语言模型走过的路。它的第一个任务——预训练——就是不停地“背”下一个单词。关键问题是量太大:GPT-3当时用了150万本书。以我自己为标尺,状态最好的时候一年读20本书,现在一年能读完5本就不错了。估算下来,人一生或许能读1000本书。而GPT-3在3个月内读完了150万本书。

这个训练过程本质上是:第一步,打印下一个字符——不是随机的,而是符合文本统计规律的,给出前X个字符,预测第X+1个;第二步,“跟我做”——模型学习十几个任务,比如总结、问答、头脑风暴、信息抽取等。为什么做这一步?因为我们人类日常工作的类型,其实也就这些。大语言模型厉害的地方在于,一旦学会N个能力,它能组合它们。比如收到一个会议邀请的邮件,会先总结内容,然后用巧妙的方式拒绝或答应——这就是多种能力的组合;第三步,用“胡萝卜+大棒”的方式,通过强化学习做价值对齐,将模型训练得“乖巧”——有帮助、真实、无害。

数据本身的性质,决定了模型的天花板。正态分布告诉我们,许多要素叠加的结果通常都服从正态分布——比如身高,我肯定是三个标准差之外的。但一旦个体之间存在纠缠、扰动、抱团取暖,结果就会变成“长尾分布”。长尾的背后有几重原因:优先连接——我的朋友多,我的发言更容易被听到和点赞;累计效应——有钱的会更有钱,通过反馈增加财富。宇宙里陨石的大小、城市规模、社会网络的热搜,都符合长尾定律。但它不代表稳定——今天的热搜和明天的必然不同,但“有热搜”这件事一定存在。如果哪天世界没有热搜,那才奇怪。

现实世界所有现象都符合长尾分布,大语言模型的语料反映的自然是长尾定律。这意味着,有很多非常简单的故事,但也有一些极其复杂的故事——同属一个品类,比如“冲突”,日常冲突天天有,但国与国之间的冲突几十年一次,原因极其复杂。因此,大语言模型用多少数据、算力能训练到什么程度,是和数据本身的复杂性绑定的。它的性能不是时间问题,而是信息论推导出的上限。结果是什么?当把所有能找到的数据都“滚”过一遍,进步必然放缓。长尾的另一个标志是:想再进步一点点,数据量必须翻倍。坊间传闻GPT-5迟迟出不来、撞墙了,本质上就是这个原因。

大语言模型之所以强大,在于它是一个规模超级大、多层次的“模式补全”机器。它能将原本被打碎的数据切进来,从最基础的单词接龙,到完成任务,再到用思维链拆解问题,最后是目标驱动的程序。在不同层次随意切换、重复。人类是不是也在做类似的事?日常工作中,做到这一点就已经很出色了,很多任务里AI甚至比人类更出色。一个专家与初学者最关键的区别,在于思维的“深度”。大一大二的学生只会编程,后来变成软件架构师——这就是深度提升的体现。

假如将今天的大语言模型早500年送给人类,会怎样?不需要数学、物理,解释一切、解决一切。但结果可能是——今天反而不会有大模型。这是一个非常有意思的悖论。

那么,AI教育到底应该是什么?首先,挑战现有教育的极限。不要禁止学生用AI,放开给他们用。对任何学习目标来说,用上AI,效率提升两倍到十倍是可行的。如果用了AI以后任务变简单了,那就做更难的挑战——比如本学期的作业比之前难一倍,或者用一半的时间完成学习。因为我们得让学生做好进入职场的准备——未来,他们必须和AI一起工作。如果不让他们用,就是浪费时间。但如果让他们用,必须设置新的挑战。这是第一点。

第二点,要学会像文艺复兴时期的科学家那样思考。现在的教育流水线——走过独木桥再走钢丝——产出的都是非常狭隘、非常专业的人才。我们需要把自己打造成“广谱”的人才。举个例子:在没有DNA和摄像头的情况下怎么抓坏蛋?几百年前苏格兰警察困惑这个问题,一位法国警察想出一个办法:测量胳膊长度、面部特征等十几个指标,分发到各分局抓人——这就是最简单的“特征工程”。后来,达尔文的表弟将抓坏蛋的艺术又提高了一倍,建立了数据相关性理论,最终成立了第一个统计系。你看,机器学习里最基本的概念,它的起源、是谁、什么时候发明的,大多数人并不知道。我们太容易变成狭隘的专家。但只要有一点好奇心,就能对广阔的上下文有更好的理解。

第三,我们应该将AI变成一位“好老师”。如果做不到,怎么办?那就提高自己的学习能力——在缺少AI的时代,你的能力要比没有AI时更强。今天开车,没有GPS就不知道怎么走——这说明GPS是一项“糟糕”的技术,因为它削弱了人的能力。我们要反过来:用了AI以后你得变得更聪明。有了AI,你能飞起来;没有AI,你也不能躺平。三个目标是相辅相成的:挑战极限,成为广谱的人,有机会打破独木桥和钢丝的狭隘陷阱。

最后,推荐一本书《THE ACE OF WONDER》。有人问过气球有什么用?富兰克林是这么回答的,关于天文望远镜、化学也是。这本书最后讲到一群诗人,其中一位写了《科学怪人》。他们对技术进步的感受非常相似——一方面兴奋,一方面恐惧。这是18世纪以来不断重演的故事。某种意义上,我们确实在重复自己。

来源:https://www.aiagiai.com/8178.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
企业组织级AI赋能具体实施方法

企业组织级AI赋能具体实施方法

前段时间收到一位读者的留言,希望聊聊企业级、组织级的AI赋能究竟该怎么落地。巧的是,前几天刚看到一份咨询调研机构的数据:对近一两年所有企业级AI赋能项目的统计显示,超过90%的甲方企业认为,AI赋能在核心业务价值链上没有发挥任何实质性作用。除了AI辅助办公、企业智能知识库这类边缘应用起到了一些辅助效

时间:2026-06-30 16:16
Scrapy与Redis分布式架构的日本电商多平台数据聚合系统

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统

从事日本电商数据聚合工作时,最大的难点在于要同时应对雅虎拍卖、煤炉(Mercari)、乐天和亚马逊日本站等截然不同的平台。以往使用单机爬虫,经常出现运行中崩溃的情况——单点故障、带宽利用率不足、数据存储混乱,这三大痛点令人困扰。 本文分享一套基于Scrapy + Redis的分布式爬虫方案,专门解决

时间:2026-06-30 16:16
详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置

​ PuTTY(简称PT)是一款轻量级开源SSH Telnet客户端,凭借简洁高效的特性,多年来始终是系统管理员与开发者进行远程连接的首选利器。本教程将详细介绍PuTTY 0 81版本的完整安装过程,并指导您自定义安装路径,以便更灵活地管理SSH远程连接工具。 安装准备 首先需要说明的是,整个安装流

时间:2026-06-30 16:16
在线教育系统必备功能:直播课堂与题库考试架构

在线教育系统必备功能:直播课堂与题库考试架构

很多人一想到做在线教育系统,第一反应往往是先把直播间和课程播放器搭起来,觉得“能看课”就万事大吉了。真到落地那天才发现,系统能不能顺滑跑起来,关键全藏在那些细节里——课程怎么组织、学习进度怎么记、考试怎么处理、后台怎么管得住。前端看起来就几个页面,后端其实是一整条业务链路。不管你是要做在线教育APP

时间:2026-06-30 16:15
ZStack源码级AI诊断套件让故障排查秒出答案

ZStack源码级AI诊断套件让故障排查秒出答案

一次故障排查,到底要花多少时间? 运维人员处理私有云、虚拟化平台的问题,流程大致都是这样:先翻日志看现象,再去文档里找对应机制,然后搜社区有没有类似案例,最后综合判断给出答复。简单问题半小时,复杂问题可能要跨天——而这些时间里,大部分精力耗在了“找信息”而不是“做决策”上。 类似的问题,也许每天都在

时间:2026-06-30 16:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜