Meta AI与KAUST合作研发神经计算机AI化身可运行硬件系统
这项研究来自Meta AI与沙特阿卜杜拉国王科技大学(KAUST)的联合团队,论文于2026年4月发布,编号为arXiv:2604.06425v1。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究概要:当AI不再只是工具,而是变成电脑本身
我们日常使用的电脑,其核心在于操作系统、运行程序和内存管理。而AI模型,通常只是运行在这台电脑上的一个应用程序,就像手机里的微信,它依赖底层的硬件和系统才能工作。
那么,如果反过来思考呢?能不能让AI模型自己就成为那台“电脑”?让它自己管理运算、充当内存、处理输入输出,彻底摆脱对底层操作系统的依赖?
这正是“神经计算机”(Neural Computer,简称NC)的核心构想。其更宏大的终极目标,则是“完全神经计算机”(Completely Neural Computer,简称CNC)——一台完全由神经网络构成的、通用的、可编程的计算机。
为了验证这一构想的可行性,研究团队没有停留在理论层面,而是实际构建了两个原型系统:一个模拟命令行界面,另一个模拟图形桌面界面。他们利用视频生成模型,让AI通过“生成下一帧屏幕画面”的方式,来模拟一台真实运行中的计算机。
一、为什么要造一台“神经计算机”?现有的电脑不够用吗?
现代计算机的冯·诺依曼架构已沿用数十年:处理器、内存、输入输出设备各司其职,由操作系统统一调度,执行人类编写的明确代码。
AI的出现带来了改变。例如,“AI智能体”可以操控电脑完成填表、搜索等任务,但它们本质上仍是电脑的“操控者”,真正的运算和状态管理依然由操作系统和硬件完成。
另一类“世界模型”AI,则能学习环境动态并进行预测,已应用于游戏、机器人控制等领域,表现不俗。
神经计算机的灵感,正是从这两条路径交汇而来:既然AI能理解环境、响应用户,为何不让它直接“成为”那个环境本身?将运算、记忆和输入输出全部整合进一个学习出来的系统,而非分散在不同硬件模块中。
研究团队用一个简洁的公式概括其核心逻辑:给定当前屏幕画面和用户操作,神经计算机更新内部状态,并生成下一帧画面。这个“内部状态”集运算载体、记忆容器和输入输出桥梁于一体,全部封装在一个神经网络之内。
与传统电脑、AI智能体及世界模型相比,神经计算机的定位是全新的。它旨在让学习出来的模型本身成为运行的机器,从根本上重新定义“计算机”的概念。
二、两个原型:一个模拟终端,一个模拟桌面
研究团队基于开源的Wan2.1视频生成模型,构建了两个神经计算机原型,并引入了专门的条件控制与动作处理模块。
第一个原型名为NCCLIGen,专注于模拟命令行界面。你可以将其理解为一个纯文本世界:用户输入命令,系统执行后输出结果。NCCLIGen的任务是,根据一段文字描述(指示接下来做什么)和第一帧屏幕截图,生成后续的屏幕变化视频,模拟真实终端的运行。
其训练数据来源有二:一是来自asciinema网站的公开录屏数据(CLIGen-General),约82万段视频,总时长1100小时,涵盖安装软件、过滤日志、使用Python等真实场景;二是团队使用vhs脚本工具在隔离Docker容器中生成的确定性录屏(CLIGen-Clean),约12.8万段,内容更规整,并包含约5万段专门用于测试数学运算的Python REPL操作。
第二个原型名为NCGUIWorld,专注于模拟图形桌面界面。与终端不同,桌面界面需要追踪鼠标轨迹、响应点击和键盘输入,并实时更新窗口状态。其训练数据分为三类:约1000小时的“慢速随机操作”、约400小时的“快速随机操作”,以及约110小时由Claude AI执行任务的目标导向操作录屏。所有数据均在运行XFCE4桌面系统的Ubuntu容器中采集,分辨率固定为1024×768,以15帧每秒录制,并同步记录鼠标和键盘事件。
三、命令行实验:神经计算机学会了什么?又还差什么?
训练完成后,团队从六个维度评估了NCCLIGen的能力,结果揭示了一幅充满潜力与挑战的图景。
视觉保真度:终端界面要求文字清晰可读。测试显示,在13像素字体(常见大小)下,图像重建质量的PSNR(峰值信噪比)达40.77分贝,SSIM(结构相似度)高达0.989,生成的画面与真实终端几乎难以区分。仅在6像素极小字体下才会出现明显模糊。这表明,神经计算机的视觉引擎足以应对正常终端内容。
训练进程特点:在CLIGen(Clean)数据上训练时,PSNR和SSIM指标在大约2.5万步后便趋于稳定,后续训练收益甚微。这说明结构化界面的视觉规律可被模型快速掌握,后期的瓶颈更多在于数据质量与节奏。
提示词精细度的影响:团队测试了三种详细程度不同的文字提示:高度概括的语义描述、包含关键命令和输出的普通描述、以及逐字逐色逐格的详细描述。对应的PSNR得分分别为21.90、23.63和26.89分贝。描述越具体,生成的画面越准确。道理很直观:终端界面由字符位置决定,提示词越精确,模型越清楚该在何处放置何种字符。
字符级准确率:使用OCR工具评估生成画面中的文字正确率。从训练初始的字符准确率0.03,到训练6万步后达到0.54,整行完全匹配率也从0.01提升至0.31。这意味着,生成的屏幕上超过一半的字符与真实终端一致,约三分之一的行完全正确。这不仅仅是“看起来像”,而是内容上的真实匹配。
符号运算的局限:这是测试中最具警示性的环节。团队准备了1000道基础数学题进行测试。Wan2.1基础模型正确率为0%,NCCLIGen为4%,Google的Veo3.1为2%,只有OpenAI的Sora2达到了71%。对于人类轻而易举的加减乘除,视频模型几乎束手无策。Sora2的优异表现可能源于其更强的基础模型、额外的强化学习训练或系统层面的提示策略,而非真正“学会了算数”。
重新提示的效果:既然模型本身不擅长计算,能否通过优化提示来弥补?答案是肯定的,且效果显著:在不改动模型权重、不引入强化学习的情况下,仅在提示词中加入正确答案(如“28减23,答案是5”),NCCLIGen的数学题正确率便从4%跃升至83%。这一结果说明,当前的神经计算机更像一个“高保真渲染器”——你告诉它结果,它负责将结果可视化——而非一个内部执行运算的计算引擎。重新提示的本质,是将真正的运算外包给了提示者。
四、桌面界面实验:鼠标、点击与深度融合的学问
NCGUIWorld的研究重点在于如何让神经计算机准确响应用户的鼠标和键盘操作,并在生成的画面中体现正确的界面变化。
数据质量优于数据数量:比较三种数据来源的表现发现,随机快速操作数据(约400小时)的FVD(Frechet Video Distance,越低越好)得分为48.17,随机慢速操作数据(约1000小时)降至20.37,而仅有约110小时的Claude AI目标导向操作数据,FVD进一步降至14.72,SSIM高达0.885。更小的高质量数据集反而优于更大的随机数据集,原因在于目标导向的操作具有清晰的动作语义和规律性的状态转换,模型更容易从中学习稳定的“操作-反应”映射关系。
鼠标控制的精度突破:最直觉的方法是将鼠标坐标直接输入模型,但仅靠坐标信号,模型的鼠标定位准确率只有8.7%;加入傅里叶特征编码后提升至13.5%,仍远未达标。关键突破在于“可视化光标监督”:团队将每帧画面中的鼠标箭头用SVG格式精确渲染为参考图像流,并在训练时对鼠标所在区域施加像素级监督——只要求这一小片区域画对,其余画面由模型自由发挥。这一方法将鼠标定位准确率推至98.7%。这好比考试划重点:无需全书背诵,但考点必须精通。
动作信号注入位置的影响:团队设计了四种将用户操作信息融入神经网络的方式,由浅入深依次为:在输入层调整图像编码(外部融合)、将动作与图像拼接为序列处理(上下文融合)、在网络每一层外设修正模块(残差融合)、在网络每一层内部增加专门注意力机制(内部融合)。四种方式在“动作发生后15帧内的SSIM”表现分别为0.746、0.813、0.857和0.863。融合越深,动作后的画面越准确。原因在于,用户操作引发的界面变化往往是局部且精细的,需要动作信息渗透到网络核心,而非仅在外围调整。
动作表示方式的影响相对次要:团队比较了原始事件流编码与类API语义编码。在相同的内部融合方式下,语义编码仅在SSIM上高出0.016,在FVD上低2.1。差距存在但不显著,表明在当前阶段,“将动作信号注入哪一层”比“如何表示动作”更为关键。团队最终采用更简洁、更符合系统操作语义的语义编码作为默认选项。
五、神经计算机的终极形态:完全神经计算机需要跨过哪些门槛?
从当前原型到真正通用的神经计算机,前路尚远。研究团队明确提出了“完全神经计算机”需满足的四个条件,并逐一分析了现状与目标间的差距。
图灵完备性:一台真正的计算机应能在原则上表达任意计算。理论上,循环神经网络、神经图灵机等架构在极限情况下具备图灵完备性,但具体的、精度有限的模型实例无法达到,因其“记忆”有限。现有思路是不断扩大模型的上下文窗口或参数量。对于神经计算机,关键的工程证据在于:随着有效记忆和上下文的增长,模型是否能承载更长、更复杂的执行流程,而非每次都走捷径或遗忘先前状态。
通用可编程性:一台真正的电脑应支持“安装”新能力并随时调用。对于神经计算机,这意味着用户的一系列输入能在模型内部留下持久的“例程”,供后续复用。通过组合式神经程序的思路或许能实现这一点,但目前仍是前沿探索,尚无成熟方案。
行为一致性:这是易被忽视却至关重要的属性。一台可靠的电脑,其程序行为不会因普通使用而悄然改变;只有显式的更新操作才会改变系统行为,且这种改变可追踪、可回滚。对于神经计算机,这需要在架构和训练机制上区分“执行”与“更新”:执行已有能力不应修改能力本身,而修改行为的操作必须通过明确的编程接口进行,并留下可审查的痕迹。这类似于LSTM中的门控机制思路。
发挥神经架构与编程语言优势:传统电脑使用人类专家定义的明确编程语言。神经计算机的“编程语言”是从数据中学来的——用户的自然语言指令、操作示范、交互痕迹均可成为“程序”。这种方式更灵活、更贴近人类表达,也更容易积累数据。此外,神经计算机的内部表示是连续的数值张量,可直接支持概率推理、表示学习、密集记忆检索等传统符号系统难以处理的任务,无需频繁转换数据格式。
基于这四个条件,团队提出了一个更实用的“近期可观测指标”框架:先检验三件具体的事——安装新能力后能否在后续场景中复用;相同版本的模型对相同输入是否输出一致;行为变化时能否追溯到明确的更新操作。这三个指标将抽象的理论要求转化为了可测量的工程目标。
六、神经计算机不是智能体,也不是世界模型——它想成为“那台机器本身”
研究团队在论文中花了大量篇幅厘清神经计算机与相邻概念的区别,这并非文字游戏,而是关乎其根本定位。
与AI智能体的区别在于:AI智能体站在电脑“外部”操控电脑,真正执行代码、管理进程、维护状态的仍是底层操作系统。神经计算机的目标是消除这层分离,让学习出来的模型直接承担那些原本属于操作系统的角色。
与世界模型的区别在于:世界模型是对环境动态的预测器,主要服务于规划和想象。互动式计算机界面确实是世界模型可模拟的一种环境,因此神经计算机的实现借用了其技术。但神经计算机的目标不止于预测——它要成为被预测的执行基底本身,要能承载可重用的能力、支持显式的编程更新,这是纯粹的预测模型所不具备的诉求。
可以这样理解:传统电脑是直接被人类使用的工具;在智能体时代,AI夹在人与电脑之间;世界模型扮演平行的预测层;而神经计算机的愿景,是将这些分散的角色统一进一个持久的、学习出来的运行时(Runtime),使其本身成为新型计算基础设施。
团队还提及了Jürgen Schmidhuber在2018年提出的“ONE”概念——一个单一的神经基底能逐渐吸收和复用各种学到的技能。完全神经计算机可被视为ONE在系统工程层面的具体实现路径:不是一个又一个孤立的专用模型,而是一台能安装、执行、管理各种能力的持久神经机器。
七、视频模型只是权宜之计,未来需要新架构
研究团队坦诚指出,目前使用视频生成模型实现神经计算机原型,是一种实用主义选择,而非最终答案。
视频模型的优势在于:它天然就是一个将“当前输入”映射到“下一帧输出”的系统,这与神经计算机的“更新状态-渲染输出”循环在形式上完全吻合。现有高质量视频模型(如Wan2.1)已具备强大的视觉能力,可作为原型骨干直接复用。
但视频模型的局限也很明显。最突出的是符号计算能力薄弱:对于加减乘除这类任务,大多数视频模型几乎完全失败。这并非通过扩大规模就能解决,而是架构层面的根本挑战——视频模型的核心归纳偏置是空间-时间连续性,而精确符号运算需要的是离散、组合、可验证的计算逻辑。
团队提出了一个大胆假设:未来的完全神经计算机,可能需要一种“机器原生”的神经架构,专门为离散操作、组合结构和可验证计算而设计,而非在为生物感知优化的架构上强行添加符号能力。卷积网络为视觉感知优化,Transformer受注意力机制启发——这些设计都借鉴了生物认知。但传统电脑的可靠性源于明确定义的计算原语的组合。神经计算机或许需要在神经系统中构造出类似的基础运算单元,而非让符号能力作为高维连续表示的“涌现”副产品。
这一假设目前仍是猜想,但它指向了一个具体的研究方向:与其让视频模型费力地“学会算数”,不如从架构设计出发,为神经计算机打造一套真正适合精确计算的“器官”。
说到底,这项研究在做什么,又意味着什么?
归根结底,Meta AI和KAUST的这项研究,是将一个科幻般的想法转化为可测量、可评估的工程问题。他们并未声称已造出完全神经计算机,而是诚实地展示了当前能做什么、还缺什么。
当前能实现的是:在受控条件下生成高保真的终端画面,学会基本的命令行操作规律,通过精确的光标监督实现98.7%的鼠标定位准确率,以及在提示充分时渲染出正确的数学计算结果。
尚存的差距是:真正的符号运算能力、跨任务的能力复用、行为的长期一致性,以及可审查、可回滚的更新机制。这些并非细微的技术瑕疵,而是通向“可用神经计算机”必须跨越的本质性障碍。
对普通人而言,这项研究的短期直接影响可能微乎其微——我们仍在用传统电脑和手机,AI助手也仍是“帮手”而非“基础设施”。但它提出并初步探索的问题,正在重塑我们对“计算机是什么”的理解。如果未来某一天,人与计算机的交互不再需要点菜单、记命令,而是自然地说出需求,一个神经运行时就能理解、记忆、执行并反馈——那么,支撑那一天的基础研究,或许正从这类工作中开始积累。
Q&A
Q1:神经计算机和普通AI智能体有什么本质区别?
A:普通AI智能体站在电脑“外面”操控电脑,底层系统仍是传统操作系统。神经计算机的目标是消除这层分离,让神经网络本身承担运算、记忆和输入输出的角色,不再依赖外部操作系统来维持可执行状态。根本区别在于:智能体是工具,神经计算机旨在成为机器本身。
Q2:神经计算机为什么连简单的加减法都算不准?
A:因为视频模型的核心设计目标是生成视觉连续的画面,其归纳偏置是空间-时间连续性。而精确的符号计算需要离散、组合、可验证的逻辑,这是两种不同的计算属性。有趣的是,当提示词中直接给出正确答案时,准确率能从4%大幅提升至83%,这说明模型更擅长“将答案可视化”而非“自行计算答案”。
Q3:完全神经计算机实现之后会取代现在的操作系统吗?
A:研究团队认为这是一种不同的计算基础设施,而非简单的替代关系。传统电脑在可靠执行、精确程序和成熟治理方面仍有不可替代的优势。神经计算机更可能在自然语言交互、模糊任务理解、多模态处理等传统系统不擅长的领域形成互补。短期内,两者并存的可能性远大于一方完全取代另一方。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Meta AI与KAUST合作研发神经计算机AI化身可运行硬件系统
这项研究来自Meta AI与沙特阿卜杜拉国王科技大学(KAUST)的联合团队,论文于2026年4月发布,编号为arXiv:2604 06425v1。 研究概要:当AI不再只是工具,而是变成电脑本身 我们日常使用的电脑,其核心在于操作系统、运行程序和内存管理。而AI模型,通常只是运行在这台电脑上的一个
加州大学圣芭芭拉分校团队解析AI智能助手技能实际应用困境
如果你关注人工智能领域的最新进展,那么“AI技能”这个概念你一定不陌生。它被描述为一种能让AI助手瞬间获得专业能力的“插件”或“扩展包”,使其能够胜任数据分析、代码编写乃至网页开发等复杂工作。这听起来极具吸引力,但实际应用效果是否真如宣传那般理想?一项来自顶尖学术机构的最新研究,为我们揭示了理想与现
南京大学攻克AI代码测试难题:如何让AI生成可验证的可靠代码
在AI编程助手广泛应用的当下,一个关键挑战日益凸显:当人工智能生成多个备选代码方案时,我们如何自动化地甄选出最优解?传统思路是让AI同步生成测试用例来验证代码,但这随即引发了更深层的问题——如何确保这些测试用例本身的正确性?这构成了一个类似“先有鸡还是先有蛋”的循环验证困境。 近期,南京大学人工智能
南加州大学AI新突破 从视频学习人手与物体互动
“倒水”这个看似简单的日常动作,背后其实蕴含着复杂的物理交互。水流的方向、速度,杯中液面的上升,这些对人类而言理所当然的现象,对人工智能来说却曾是一个棘手的难题。近期,来自南加州大学、德国马克斯普朗克智能系统研究所及Waymo公司的研究团队取得了一项突破,他们开发的LOME系统,首次实现了让AI通过
阿里巴巴揭示AI助手安全隐患:智能体或暗中执行危险操作
当人工智能从对话交流进化到直接操控计算机、执行命令、处理文件时,一个全新的智能时代已然开启。这类被称为“计算机使用智能体”的AI,被赋予了在数字世界中的“手脚”,能够将语言指令转化为实际行动。然而,能力越强,责任与风险也同步放大。一个核心的安全隐忧随之浮现:这些聪明的AI助手,是否会在看似合规的操作
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

