首个以物理为计算原语的大规模生成模型Un-0
过去十多年,GPU 主导的数字计算一直占据AI领域的话语权——更大集群、更高带宽、更强GPU、更密集数据中心,似乎就是通向下一代AI的唯一路径。但事情正在起变化。 当模型参数迈向万亿级,行业里越发频繁地听到一个词:「能耗」。随之而来的是一个更底层的问题:如果AI继续按现有方式膨胀,电从哪来? 没错,
过去十多年,GPU 主导的数字计算一直占据AI领域的话语权——更大集群、更高带宽、更强GPU、更密集数据中心,似乎就是通向下一代AI的唯一路径。但事情正在起变化。
当模型参数迈向万亿级,行业里越发频繁地听到一个词:「能耗」。随之而来的是一个更底层的问题:如果AI继续按现有方式膨胀,电从哪来?
没错,AI的「电费账单」已经从运营成本,慢慢演变为制约整个行业发展的结构性瓶颈。能源消耗不再是后勤问题,而是天花板本身。
面对这场能源危机,前Databricks AI负责人、硅谷传奇创业者Na veen Rao带着他的新硬科技公司Unconventional AI走到了台前。今天,这家公司正式发布了第一个模型Un-0——一个由「模拟耦合振子系统」驱动的图像生成模型。本质上,这是一个新兴物理计算底座的样例原型。
结果呢?在ImageNet 64×64上,Un-0达到了FID 6.74,质量已经接近一些主流传统图像生成方法刚发布时的水平。Na veen Rao称它是「第一个以物理作为计算原语构建的大规模生成模型」。
「这标志着基于物理的模型迎来了一个『Hello World』时刻。我们利用物理系统天然随时间变化的行为,让它替我们完成计算。最终结果是一种全新的计算机构建方式,并且有望在能效上实现大幅提升。」他甚至放出了一个更激进的「小目标」:未来,将AI推理能耗降低到现有系统的千分之一。


上图展示了Un-0生成过程中随时间演化的轨迹。每条线的颜色对应一个类别方框,框内标注了类别,以及该类别图像随时间逐步生成的过程。接下来,我们深入了解一下这个模型到底怎么运作。
Un-0的出发点:用物理系统重做AI计算
Unconventional AI的目标很明确:构建一种新型计算机,让物理规律本身来完成计算,最终使现代AI的能耗降低大约1000倍。为此他们提出的核心问题是:能不能训练一个物理动力系统,让它在规模化任务上生成图像?
今天的顶级AI模型几乎都是传统深度网络,尤其是Transformer骨干。但在主流之外,长久以来一直有研究试图借助物理系统的动态行为来提升能效——比如模拟电路中的噪声、时间变化、电压、电流等等。这类方法不用传统的数值计算,而是让物理系统自己演化。神经形态计算、Hopfield网络、Reservoir Computing,以及近年涌现的Hamiltonian Networks、Liquid Networks、Neural Wa ve Machines、Thermodynamic Computing和Kuramoto Oscillators,都属于这条非传统路线。
Un-0正是这些非传统路径上的一次新尝试。核心难点在于:要想利用替代计算方式,AI任务必须被有效映射到物理系统的动态过程中。Un-0要验证的就是,现代AI工作负载能否放到物理底座上运行,并且最终比今天的硬件更高效。
Un-0的工作原理
想象一下两个节拍器并排滴答作响,如下图所示。

每个节拍器在任意时刻都有一个「相位」——即摆臂当前在摆动周期里的位置。两个节拍器放在同一张桌子上,会通过桌面彼此影响。根据相互作用强弱(也就是耦合强度),它们可能逐渐同步,也可能进入相反相位的同步状态。这就是振子的基本概念:每个振子有自己的相位,倾向于按自身频率旋转,但同时会受到邻近振子的影响。
如果把两个振子扩展到几千个,系统就变得更有意思了。大量振子之间存在不同强度的耦合关系,它们通过相互作用自组织成某种模式,如下图所示。

Un-0的计算引擎就是这样一个大规模振子群,而振子之间的耦合强度是模型最主要的可学习参数。这些耦合振子通常被建模为「Kuramoto振子」。每个振子的运动遵循一条简单规则,且随时间连续生效:它一方面按自身自然频率旋转,另一方面受其他所有振子的牵引而发生偏移。下面这个常微分方程(ODE)描述了振子随时间演化的过程:



为什么选择振子?两个理由。第一个来自大脑:大脑中广泛存在节律活动和同步现象,人们长期认为这些现象可能参与了计算——比如把分散的特征绑定成连贯的感知、控制脑区间的信息交流、组织神经脉冲的时间结构。耦合振子是描述这类行为最简单的数学模型之一,自然适合作为神经启发式计算的基础单元。第二个理由更工程化:振子可以被实现为一种物理电路原语。Unconventional AI认为,可以在CMOS或其他物理底座上直接实现耦合振子系统,让系统的物理行为本身计算动力学演化。
Un-0背后的赌注是:如果物理规律可以直接计算AI工作负载,那么未来的执行底座很可能和今天的GPU截然不同。
Un-0的模型架构
Un-0生成一张图像大致分五步:
随机初始化:将所有振荡器的相位设置为随机角度(类似扩散模型中的随机噪声);输入类别引导:用一组较小的「条件振荡器」输入类别标签(如「火山」「雏菊」),引导主体振荡器集群向特定方向演化;让物理自然运行:释放系统,让振荡器在物理动力学作用下相互拉扯、演化,最终稳定下来;捕捉快照:在特定时间T记录所有振荡器的相位,形成一个隐空间(Latent)数字网格;渲染像素:通过一个只占模型不到13%参数量的传统解码器,将相位网格转化为最终图像像素。

上图展示了耦合振子在训练得到的耦合关系作用下随时间演化。条件振子到主振子池之间存在一个单向的低秩类别条件矩阵,用于注入类别信息。在时间点T,系统通过解码器读取振子状态并生成图像。通过多次采样不同的初始条件,就可以生成对应的图像分布。

Unconventional AI解释,之所以选择这种架构,是为了让动力系统本身有最大自由度来完成计算。在训练的前向传播里,模型只需要设置耦合矩阵、振子频率和初始相位,然后让动力系统演化,最后读取图像潜变量。这和扩散模型、Flow Matching等动态生成方法不同——扩散和Flow Matching通常会在训练过程中显式指导动力系统如何演化,而Un-0更像是只看最终生成样本,再通过损失函数反过来优化整个动力系统。代价是需要一种更复杂的损失函数,因为训练信号主要来自生成样本本身。
如何训练Un-0?
Unconventional AI在CIFAR-10和ImageNet 64×64上分别训练了三种规模的模型,结果如下:

(CIFAR-10上的训练结果)

(ImageNet 64×64的训练结果)
从结果看,随着振子数量增加,模型FID评分持续改善。最大ImageNet 64×64模型使用16384个振子,总参数约3.22亿,FID达到6.74。训练方法上,使用了一种新提出的「漂移损失」(Drifting Loss)函数,配合DINOv2特征提取器和AdamW优化器进行端到端训练。评测方面,CIFAR-10使用5万张生成样本,用标准包和流程与参考统计比较;ImageNet 64×64同样使用5万张生成样本,通过ADM evaluation suite计算FID。算力方面,所有CIFAR-10模型在1张B200 GPU上训练,ImageNet模型在8张B200 GPU上训练。最大CIFAR-10模型训练消耗20个B200小时,最大ImageNet模型消耗640个B200小时。训练瓶颈主要来自「漂移损失」函数的计算,因为它需要使用传统图像特征提取器,并在多个特征视图上计算。
Un-0在图像生成领域处在什么位置?
为了对比,Unconventional AI把Un-0放在「生成质量 vs 参数数量」的曲线上,与传统模型和非传统模型进行比较。

(CIFAR-10中参数数量与FID值的对应关系)

(64×64尺寸下参数数量与FID值的对应关系)
结论很清晰:Un-0的质量已经可以和一些早期传统生成器相当,甚至在某些对比中更好,比如NCSN、DCGAN-TTUR、WGAN-GP、BigGAN、iDDPM、Consistency Models、TRACT等。但它仍然落后于后来的高性能传统模型,比如EDM和GDD。换句话说,Un-0不是当前最强的图像生成模型,更像是一条新路线的起点——其表现已经接近多个经典生成模型刚发布时的水平,但要追上传统路线的前沿,还需要算法、架构和物理原语层面的持续优化。
整体来看,Un-0证明了利用物理动力学系统进行现代AI大规模图像生成的可行性。虽然目前在软件模拟下的性能还未达到常规AI的顶峰,但它为未来实现千倍能效比的「非传统AI硬件」开辟了一条充满希望的道路。Na veen Rao强调,Un-0的出现说明「计算并不是人类独有的发明」,它存在于自然与物理世界的各个角落。所有物理实体的物理过程都包含时间维度,但今天的计算系统却没有真正利用这一点。「我们正在开发的,正是这个时间维度。」

这与能效的关系在于:在现有冯·诺依曼架构机器中,大部分能量消耗在内存与计算单元之间的信息搬运上,而动力系统把计算和记忆合并到同一个实体之中。更重要的是,动力系统可以容忍噪声,这进一步打开了节省通信能耗的新机会。Un-0代表着计算范式向动力系统转变迈出的第一步。「通过这次模型发布,我们正在把智能与动力学连接起来。」对于AI计算而言,动力学是一种天然的表达框架——神经网络本质上也可以看作动力系统,二者之间的映射会更加直接。「大脑里并没有线性代数这种抽象,所以某种意义上,我们是在绕过中间环节。」
在帖文下面,不少网友表达了期待。「实际上,这种性能效率的提升非常巨大。如果这种技术能够得到广泛应用,那么很多在本地运行的应用程序都可能变得可行起来。」「如果这种技术能够上市的话,那真是一项极其先进的脑科技啊。」


你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:首个以物理为计算原语的大规模生成模型Un-0要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点VoiceDIM是一款为《命运2》物品管理器设计的语音控制插件,支持通过语音指令完成武器转移、装备更换与负载调配。提供全局快捷键与始终听两种唤醒模式,可自定义指令,并具备农场模式、最大能力装备一键切换及邮局收集等功能。
Video2Text可将YouTube视频自动转录为文字稿,需从GitHub克隆项目、安装依赖并启动前端使用。realtime at专注捕获过期域名,注册账号即可实时监控并抢注有价值的域名。
TodoAI是一款将语音想法转换为可执行任务的人工智能工具,用户口述后自动识别并生成待办事项,支持任务分类、优先级设置、共享协作及iCloud跨设备同步,有效降低记录与执行心理门槛,极大提升工作效率。
Loopio是一款为英语非母语者设计的AI口语辅导工具,通过互动对话评估口语能力并给予个性化反馈与改进建议。用户可选AI辅导员练习,课后获得发音、语法、表达等方面的专属改进清单。
- 日榜
- 周榜
- 月榜
热点快看
