当前位置: 首页
AI
微软与人大联合研究:AI在虚拟计算机中训练实现智能水平突破

微软与人大联合研究:AI在虚拟计算机中训练实现智能水平突破

热心网友 时间:2026-05-12
转载

这项由微软研究院与中国人民大学高瓴人工智能学院联合主导、清华大学参与的研究,于2025年1月正式发表于arXiv预印本平台(论文编号:arXiv:2601.16206v1 [cs.CL])。研究揭示了一个突破性发现:当大语言模型(LLM)被赋予一个可自由操作的虚拟计算机环境时,其在多项非编程任务上的表现竟能获得显著提升,这为提升AI的通用问题解决能力开辟了新路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

微软和人大联合突破:让AI在虚拟计算机里

回想我们日常使用电脑处理复杂工作的流程:打开浏览器搜索资料、用文本编辑器记录要点、运行计算程序分析数据、最后整合所有内容形成报告。传统的大语言模型则更像一个被动的“思考者”,仅能依赖其内部存储的知识进行文本生成与推理,缺乏主动调用和操作外部工具的能力。这项研究的核心,正是试图赋予AI这种“动手”能力。

研究团队提出了一个创新构想:为AI配备一台“虚拟计算机”。这个被称为“LLM-in-Sandbox”(沙盒中的大语言模型)的环境,是一个完全隔离的安全沙盒。AI在其中可以像真实用户一样自由执行Bash命令、创建与管理文件、安装软件包、编写并运行脚本。实验结果令人惊喜:获得这种“动手能力”后,AI在数学推理、物理化学计算、生物医学分析、长文本理解与复杂指令遵循等领域的表现均大幅提升。更关键的是,这种能力是自发涌现的——模型无需针对这些工具使用进行额外训练,就能主动安装RDKit等专业科学计算包、利用文件系统处理超长文档,或编写Python脚本来满足特定格式要求。

这好比一位足智多谋的军师,原本只能提供战略构想,一旦获得完整的指挥系统和作战工具,便能立刻调度资源、执行战术。数据显示,不同模型在沙盒环境下的性能提升幅度在1%到24%之间,这在追求边际效益的AI前沿领域已属显著进步。

一、沙盒环境的设计哲学:简约而不简单的虚拟世界

想象为孩子准备游戏房间的两种思路:一是为每个游戏预先配置专用房间和全套工具;二是提供一个简洁的基础房间,让孩子根据兴趣自行添置玩具。研究团队选择了后者,这正是其设计理念的精髓——极简主义与通用性。

传统的专用代码智能体(Code Agent)系统类似第一种思路,为特定任务(如软件工程)预装了海量专用工具和依赖库,某些环境配置甚至需要6TB存储空间,难以大规模部署。相比之下,LLM-in-Sandbox如同一个最小化的基础版Ubuntu系统,仅预装Python解释器和基础科学计算库,整个环境镜像仅1.1GB。这相当于给AI一台“裸机”,所有专业软件(如图像处理库PIL、化学信息学工具RDKit)都由AI根据任务需求自行安装。这种设计不仅极大节省了存储与运维成本,更关键的是培养了AI自主探索与解决问题的“自力更生”能力。

该沙盒环境旨在赋予AI三种核心能力,模拟人类使用计算机的基本操作:一是外部资源获取能力(如使用wget/curl下载文件、用pip安装软件包);二是文件系统管理能力(如创建、读取、编辑、删除文件);三是代码执行与验证能力(如编写并运行Python脚本进行计算或验证)。为实现这些,团队设计了三个核心工具函数:“execute_bash”(命令行执行器,可维持会话状态)、“str_replace_editor”(文件内容编辑器)和“submit”(最终答案提交器)。

设计特别强调了“探索的自由度”。系统提示词明确鼓励模型大胆尝试,告知这是一个安全的隔离环境,可以随意实验而无需担心后果。其背后的逻辑深刻而直接:既然计算机是人类创造的最通用工具平台,那么赋予AI对一台完整计算机的访问权限,理论上应能最大程度地解锁其处理各类复杂任务的潜力。

二、AI如何在虚拟世界中“大显身手”

当强大的AI模型首次进入这个虚拟环境,会发生什么?大量实验表明,即使未经专门训练,顶尖模型也能自发学会利用环境工具解决难题。这就像将一个从未接触过电脑但极其聪慧的人置于电脑前,他很快便能通过尝试掌握基本操作逻辑。

通过几个具体案例,可以清晰看到AI的“身手”如何施展。在化学信息学任务中,AI需要根据化合物名称预测其分子性质。它首先尝试用pip安装Python的RDKit库,遭遇版本冲突后并未放弃,而是主动安装Java运行环境,随后下载并调用专业命令行工具OPSIN进行名称转换,最终成功完成预测。

在长文本理解与信息抽取任务中,面对超过10万字符的冗长行业报告,AI展现了类似人类研究员的处理智慧:先用`ls`和`find`命令总览文档结构,再用`grep`搜索关键词定位相关段落,最后编写Python脚本系统性地提取并汇总所需信息,整个过程高效且有条不紊。

指令遵循任务中的一个案例尤为有趣:要求生成三个关于中世纪历史的句子,且每个句子字符数必须完全相同、所用词汇不能重复。这对纯文本生成模型近乎不可能。但在沙盒中,AI编写了字符计数程序、词汇重复检测脚本,并运用组合搜索算法进行穷举与筛选,最终找到了多达363种可行方案。

这些案例展现的不仅是技术能力,更是一种高阶的问题解决思维模式:AI学会了将复杂问题分解为可操作的子步骤、利用外部工具弥补自身内在局限、在遇到障碍时主动寻找替代方案——这一切都是自发的、零样本的。

三、数据揭示的惊人规律:强者愈强,弱者需要引导

大规模跨领域实验揭示了一个有趣且重要的现象:并非所有AI模型都能从沙盒环境中同等受益。测试涵盖了数学、物理、化学、生物医学、长文本、指令遵循六个领域,涉及从顶级商业闭源模型到开源小模型的各类系统。

结果呈现明显的“马太效应”。顶级模型如Claude-Sonnet-4.5-Think和GPT-5在沙盒中如鱼得水,性能提升显著。不同领域的提升幅度各异:数学领域因可编程验证而提升最大;化学领域因能安装专业软件包而表现突出;指令遵循任务因可编写程序满足复杂约束同样改善明显。

然而,能力较弱的模型如Qwen3-4B-Instruct的表现则令人担忧:在沙盒中其性能不升反降。深入的行为日志分析发现,问题根源在于弱模型虽能调用工具,却缺乏有效的探索策略和规划能力,如同没有地图和方向的游客,消耗大量时间进行无效的随机操作,最终导致任务超时或失败。

数据对比发人深省:强模型平均仅需12.6轮交互便能完成任务,工具调用率高达6%-21%;而弱模型需要23.7轮交互(近乎两倍),工具调用率却不足3%。行为模式分析进一步显示,不同任务对沙盒核心能力的需求各异:数学任务最依赖代码执行与计算(43.4%操作涉及计算),化学任务最需获取外部资源(18.4%操作用于安装软件),长文本任务则最依赖文件管理(平均需27.2轮交互处理文档)。

沙盒环境对长文本任务展现出特殊价值:当文档存储在沙盒文件中而非直接全部放入提示词上下文时,所有强模型的表现均有显著提升(平均得分从35.6升至48.9)。这说明沙盒不仅提供了工具,更改变了AI处理信息的根本方式,使其能像人类一样“按需翻阅文档”,而非依赖有限且昂贵的“工作记忆”。

四、让AI学会“折腾”的训练秘籍:LLM-in-Sandbox强化学习

针对弱模型无法有效利用沙盒的问题,研究团队开发了一套创新的训练方法——“LLM-in-Sandbox强化学习”。其巧妙之处在于无需收集昂贵的专用智能体训练数据,而是通过巧妙的任务上下文设计,让AI在动手操作中自然学习。

传统的有监督微调如同发放教科书让学生自学,新方法则像创建一个充满挑战的实践环境,让学生在“做中学”。具体而言,团队使用大量基于上下文学习的普通任务数据,关键设计在于:不直接将完成任务所需的背景材料喂给AI,而是将其作为多个独立文件存储在沙盒中,迫使AI必须主动探索文件系统、读取并整合信息才能作答。

这包含两种核心策略:对于多文档问答任务,将相关文档拆分为多个独立文件(如将一篇论文拆为摘要、引言、方法、结果等部分),训练AI在文件间导航并整合信息;对于单文档任务,则在目录中添加大量无关的干扰文件,训练AI筛选和定位有用信息。训练采用结果导向的稀疏奖励机制,只要最终答案正确即给予正向反馈,从而鼓励AI探索各种可能的解决路径,而非模仿固定的操作序列。

训练效果显著。原本表现糟糕的Qwen3-4B-Instruct模型发生了质变,在沙盒模式下的表现开始全面超越传统纯文本模式,且提升覆盖各个领域。更令人惊喜的是,训练产生了强大的正向迁移效应:即使在不使用沙盒的传统文本模式下,该模型的表现也有所提升。这说明在沙盒中学到的问题分解、系统思考与规划技能,可以迁移至更广泛的场景。

对于原本较强的模型如Qwen3-Coder,此方法同样有效,能进一步优化其工具使用策略,提升效率。行为分析显示,训练后模型在资源获取、文件管理、代码执行三种核心能力上均有提升,且操作序列更简洁高效。另一个意外发现是:AI在传统文本生成模式下也变得更条理,更常使用结构化表达(如标题、分段、项目符号)并进行自我验证(如加入“让我们计算验证一下”等表述)。

五、计算效率的意外惊喜:更省钱、更快速

在分析LLM-in-Sandbox的实际部署成本时,团队发现了出人意料的结果。原本担心让AI在虚拟环境中进行多轮“折腾”会大幅增加计算开销,但详尽的成本-收益分析显示,情况远好于预期。

最大的惊喜来自长文本处理场景。传统方法需要将所有文档内容全部塞入AI的输入上下文,如同要求人一次性背诵整个图书馆的内容,成本极高。沙盒方法则让AI能像研究员一样“按需翻阅”相关文档段落。结果令人震撼:原本需处理10万字符上下文的任务,在沙盒中AI仅需读取约1.3万字符的关键信息,上下文压缩比高达8:1,这意味着计算成本(通常与输入token数相关)降低了近8倍。

在其他任务中,情况有所不同。数学、物理、化学等需要复杂多步推理的任务,确实会因为多轮交互和编程验证而增加一些token消耗,但整体增幅大多控制在50%以内。考虑到性能获得的显著提升(部分任务超过20%),这一成本增加完全在可接受范围内,性价比极高。

执行速度(吞吐量)方面的发现同样有趣。虽然沙盒模式需要多轮交互,看似应该更慢,但实际测试显示其速度表现良好。关键在于,AI生成的大量内容实际来自环境执行的结果(如程序输出、文件内容),这些内容无需AI消耗计算资源逐字生成,可通过快速的“预填充”机制直接返回给模型。数据显示,交互过程中35%-50%的内容来自环境输出,而AI处理这部分内容的时间占比不到4%。最终,不同模型的查询吞吐量表现差异显著:MiniMax的模型甚至比传统模式快2.2倍,其他模型速度基本持平或略有提升。

基础设施开销同样令人满意。与传统代码智能体需要为每个任务准备定制化、臃肿的Docker镜像不同,LLM-in-Sandbox使用统一的轻量级基础镜像。一个容器空闲时仅占约50MB内存,高峰使用也不超过200MB。即使一个服务器节点同时运行512个沙盒容器,总内存占用约100GB,对现代云服务器而言完全可接受。存储优势更为明显:传统系统可能需要维护数TB的不同任务镜像,而LLM-in-Sandbox仅需一个1.1GB的通用镜像即可处理所有任务,极大简化了部署、更新与维护。

六、超越文本的新天地:AI成为真正的数字创造者

LLM-in-Sandbox最激动人心的价值,或许不在于提升已有任务的性能指标,而在于为AI开启了全新的能力边界。传统AI如同一位只能用语言描述世界的评论家,沙盒环境则给了它一双可以操作工具、进行创造的“手”。这种转变带来的不仅是量变,更是质变。

研究团队展示了四个惊艳的创意实现案例,每个都体现了AI从“文本描述者”向“实际创造者”的转变。在智能旅行规划案例中,面对制作东京三日游互动行程的需求,AI在沙盒中创建了一个真正可用的交互式地图网页:它主动安装Leaflet.js地图库,设计包含12个景点的JSON数据结构,为每日行程设置不同颜色标识,最终生成具备点击查看详情和路线显示功能的完整网页应用。

在视觉设计案例中,为制作一场学术会议的海报,AI不再满足于文字描述,而是真正动手创作:根据提供的JSON格式活动信息,使用SVG库设计布局,实现渐变背景和层次化文字排版,最终通过专业工具将矢量设计转换为高质量的PNG图片。虽未达到专业美工水准,但这种从无到有的端到端创造能力已足够惊人。

在视频制作案例中,接到制作一个生日倒计时动画视频的任务后,AI展现了完整的创意实现能力:使用PIL等图像处理库生成360帧动画画面,每帧包含精心设计的装饰元素和动态变化的倒计时数字,再通过FFmpeg视频合成技术将这些画面组合成11秒的MP4视频。这实现了从文字描述到实际视频产品的完整跨越。

最具艺术性的案例是音乐创作。为创作一首“平静的钢琴曲”,AI没有停留在描述旋律特点的层面,而是真正开始作曲:使用MIDI处理库,在A小调框架下创作旋律线与和声进行,通过音频合成技术生成可播放的WAV文件,甚至额外生成了简谱说明文档。虽然音乐的表现力和情感深度尚有局限,但这种从概念到实物的创造过程已具备了艺术创作的雏形。

这些案例的真正价值不在于当前作品的质量,而在于其展现的发展方向与潜力。AI开始具备“元工具使用能力”——不仅能使用预设工具,更能根据需求主动发现、安装和学习新工具。更重要的是,AI展现了类似人类工程师的问题分解与项目规划能力,面对一个开放的复杂任务时会自然将其分解为环境设置、资源获取、代码编写、测试验证等可操作步骤。这种能力的获得完全是自发的、零样本的。

当然,当前仍有明显局限:生成的视频仅是简单动画,音乐缺乏细腻的情感表达力,海报设计缺乏专业的美学水准。但正如团队所指出的,随着基础模型能力的持续提升和沙盒环境的进一步完善,这个方向的发展潜力是巨大的。

七、面向未来的技术愿景:重新定义AI的工作方式

通过LLM-in-Sandbox研究,团队不仅解决了一个具体的技术问题,更为AI技术的未来发展描绘了一幅新的蓝图。其核心理念是:AI不应仅是文本生成工具,而应成为能在数字环境中主动操作、创造价值的智能工作者。

团队提出了一个大胆的愿景:让沙盒环境成为未来AI服务的默认基础设施。如同当今的Web服务标配数据库,未来的AI服务也应标配一个轻量级、安全的计算环境。这种转变将彻底改变AI的使用方式:数据分析任务将获得可验证、可复现的计算支持;长文本处理将通过高效的文件管理获得数量级的效率提升;创意生成任务将产出真正可用的数字作品,而非仅仅是描述。

实现这一愿景需要应对几个关键挑战。首先是规模化部署的工程问题,需要在容器调度、资源分配、安全隔离等方面持续优化。团队开源了Python工具包并提供与vLLM等主流推理框架的集成方案,是迈向工业化应用的重要一步。

其次是AI模型能力的持续提升。虽然顶级模型已能自发利用沙盒,但要让所有规模的模型都具备此能力,需要在训练方法上继续创新。LLM-in-Sandbox强化学习仅是一个开始,未来可能需要将沙盒交互能力直接纳入模型的预训练阶段。

安全性是另一个必须高度重视的挑战。让AI在计算环境中自由操作,必须建立完善的安全防护机制。当前基于Docker容器的隔离提供了基础保护,但面向大规模商用,还需要更细粒度的权限控制、更严格的资源限制(CPU、内存、网络)和更完善的行为监控与审计日志。

此外,这将带来AI应用模式的深刻变革。传统AI应用主要是“问答式”或“生成式”的,而沙盒化的AI将支持“协作式”与“项目式”的工作模式,使AI从“咨询顾问”转变为能够独立执行复杂项目的“执行助手”。

团队还提出了以LLM-in-Sandbox作为智能体(Agent)能力评估新基准的想法。传统评测只关注最终输出的质量,而沙盒环境能记录完整的操作过程,从而可以评估模型的探索策略有效性、工具使用效率、问题解决路径的优劣等深层能力。这种评估方式提供的△值(沙盒模式得分减去传统模式得分)可以成为一个衡量AI智能体潜力的新指标。

最令人兴奋的是“沙盒原生模型”这一概念。团队设想,未来的AI模型应从架构设计之初就考虑与沙盒环境的深度交互,将环境感知、工具调用、状态管理能力作为核心功能而非附加特性。这样的模型不仅能更高效地利用计算环境,还可能发展出人类尚未预见的新型问题解决策略。

从宏观角度看,LLM-in-Sandbox代表了AI发展的一个重要转折点,标志着AI开始从模拟人类的语言能力转向模拟人类的行为能力,从“理解世界”转向“改变世界”。这种转变的深远意义可能需要数年时间才能完全显现,但它无疑为通用人工智能(AGI)的实现开辟了一条全新且务实的路径。

说到底,这项研究最大的价值在于改变了我们对AI能力边界的认知。原本被视为超级聪明“嘴巴”或“大脑”的AI,在获得一双可操作的“手”之后,其潜力远超我们过去的想象。当AI开始在虚拟世界中自主地“折腾”工具、探索环境时,它距离真正理解和操作我们的数字世界又近了一大步。这不仅是单纯的技术进步,更是AI向真正智能体演进道路上的一个重要里程碑。

Q&A

Q1:LLM-in-Sandbox具体是什么,和普通的AI模型有什么区别?

A:LLM-in-Sandbox是为大语言模型提供一个隔离的虚拟计算机环境,使其能像人类操作真实电脑一样执行命令、创建文件、安装软件、运行程序。普通AI模型只能基于内部知识进行文字问答和推理,而具备沙盒能力的AI可以主动“动手操作”来解决问题,例如安装专业软件处理化学分子、编写Python脚本验证数学答案、或使用文件命令处理超长文档,实现了从“思考”到“行动”的跨越。

Q2:这个沙盒环境训练需要什么特殊的数据吗?

A:不需要专门收集的智能体训练数据。研究团队开发的LLM-in-Sandbox强化学习方法,巧妙地使用普通的上下文学习(In-Context Learning)任务数据。其关键设计在于将任务背景材料存储为沙盒中的文件,而非直接提供给AI,从而自然地训练AI学会在环境中探索文件系统、读取并整合信息来解决问题。这种方法简单高效,降低了训练门槛。

Q3:使用LLM-in-Sandbox会不会很费钱很慢?

A:实际上,在许多场景下反而更节省成本且更快。特别是在处理长文档时,传统方法需要将约10万个字符全部输入模型,而沙盒方法允许AI按需读取,仅需处理约1.3万个关键字符,可节省近8倍的上下文计算成本。在速度方面,由于交互中大量内容(如程序输出、文件内容)来自环境快速返回,无需AI逐字生成,部分模型的查询吞吐量甚至比传统模式快2倍以上。对于复杂推理任务,虽然交互轮次增加,但换来了准确性的大幅提升,总体性价比很高。

来源:https://www.techwalker.com/2026/0126/3177732.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
哈弗猛龙PLUS 5月15日上市 智能四驱配大屏冰箱售18.98万起

哈弗猛龙PLUS 5月15日上市 智能四驱配大屏冰箱售18.98万起

长城汽车旗下备受期待的哈弗猛龙 PLUS 车型,已正式定档于 5 月 15 日上市。自4月18日启动预售以来,这款新车凭借其标志性的“方盒子”硬派造型和极具竞争力的配置清单,迅速吸引了众多家庭用户与户外爱好者的关注。新车将提供5座和7座两种座椅布局选择,预售价格自18 98万元起,为消费者提供了更多

时间:2026-05-12 07:25
奥迪E7X深度解析德系驾控与中国智电如何重塑豪华纯电SUV标杆

奥迪E7X深度解析德系驾控与中国智电如何重塑豪华纯电SUV标杆

在新能源汽车市场从普及迈向品质竞争的全新阶段,消费者愈发寻求智能科技与驾驶质感的完美平衡。如今,这一市场期待迎来了一个融合式的答案——一款深度融合德系驾控基因与中国智能生态的豪华纯电SUV。奥迪E7X的登场,正以其独特的价值主张,试图重塑豪华纯电市场的竞争边界。 作为上汽奥迪首款基于智能电动技术中心

时间:2026-05-12 07:25
名爵MG4X纯电SUV开启盲订 十万级配置颜值全解析

名爵MG4X纯电SUV开启盲订 十万级配置颜值全解析

在10万元级家用纯电SUV市场,消费者往往面临配置、续航与价格的艰难平衡。然而,即将于5月11日开启盲订的上汽名爵MG4X,正试图以越级的产品力重塑这一细分市场的价值标杆。凭借扎实的三电系统、领先的底盘配置以及丰富的智能科技,它有望成为家庭用户购车清单中一个极具竞争力的新选择。 续航与动力:兼顾日常

时间:2026-05-12 07:25
AI需求驱动覆铜板市场增长 国产高端材料迎来发展机遇

AI需求驱动覆铜板市场增长 国产高端材料迎来发展机遇

近期,A股市场中的覆铜板板块表现尤为活跃,成为投资者关注的焦点。根据Choice金融终端统计,自4月初以来,方邦股份股价累计涨幅已接近翻倍;与此同时,生益科技、南亚新材等覆铜板行业主要上市公司的股价也呈现持续上扬态势。这轮行情的核心驱动力,源自人工智能服务器、高速数据中心交换机等高端硬件需求的迅猛增

时间:2026-05-12 07:25
LibLibAI模型选择与切换操作步骤详解

LibLibAI模型选择与切换操作步骤详解

在LibLibAI平台进行AI绘画创作时,许多用户会遇到一个典型问题:最终生成的图像效果,在艺术风格、语言理解或画面品质上,与自己的初始构想存在明显偏差。这通常并非提示词撰写技巧不足,而是核心原因在于当前激活的AI模型与您的具体创作需求不匹配。幸运的是,这一问题拥有明确的解决策略。本文将系统性地为您

时间:2026-05-12 07:24
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程