首页
AI
字节推通用游戏AI!5000亿参数训练,鼠标键盘超越GPT-5

字节推通用游戏AI!5000亿参数训练,鼠标键盘超越GPT-5

热心网友
转载
2025-10-31

Game-TARS通过构建统一且可扩展的键鼠操作训练框架,能够在各类操作系统、网页环境及模拟器中开展大规模预训练。

现在,真正能像人类一样用鼠标和键盘玩游戏的智能体终于来了!

这个智能体不仅能在《我的世界》里与普通玩家一较高下。

它还能轻松驾驭《神庙逃亡》《星露谷物语》等热门游戏,甚至能在从未见过的3D网页游戏中实现操作策略的无缝迁移。

这些令人惊艳的表现,都出自字节跳动Seed团队研发的通用型游戏智能体——Game-TARS之手。

该框架基于标准化的键盘-鼠标动作空间设计,支持在Windows、Linux等不同平台进行分布式训练。

基于超过5000亿标注量的多模态训练数据,结合稀疏推理与衰减持续损失机制,显著提升了智能体的扩展能力和泛化性能。

在FPS射击、开放世界探索、网页游戏等各类任务中,其综合表现已超越GPT-5、Gemini-2.5-Pro及Claude-4-Sonnet等顶尖模型。

那么,这一切是如何实现的呢?

真正像人一样使用键盘鼠标打游戏

Game-TARS的核心创新在于,让智能体不再依赖“调用函数玩游戏”的传统模式,而是像真人玩家一样通过实际的键盘敲击和鼠标移动来完成游戏操作。

这意味着,它不仅仅是机械地执行指令,而是真正模拟人类操作方式来完成游戏中的每一个动作。

相比之下,传统智能体通常依赖为特定环境定制的动作集:

在MCP或代码层面,它们可以直接调用Search(query)完成搜索,无需打开界面或点击按钮。在GUI层面则执行封装好的系统动作,如“双击”或“按下热键”。

这些方式虽然高效,却缺乏通用性。一旦更换操作系统或应用环境,智能体就会束手无策。

为解决这个问题,Game-TARS专注于最底层的人类基础动作:

mouseMove(dx, dy):包含x轴和y轴的鼠标相对移动。mouseClick(buttons):支持左键、右键及中键点击操作。keyPress(xkeys):涵盖单个按键和组合键的键盘输入。

这种设计使智能体的动作指令集与任何特定应用或操作系统解耦,实现了与人类用户物理交互方式的直接对齐——

即人类自然交互模式。

这样一来,Game-TARS就定义了一个可扩展、统一的操作空间,让智能体告别高级指令,直接动手“玩”游戏,极大地提升了可扩展性和泛化能力。

科学严谨的训练流程

与传统的游戏机器人或模块化人工智能不同,Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中。

智能体无需针对每款游戏编写特定代码或规则,就能自主学习操作,并在各种游戏中完成任务。

为实现这一目标,Game-TARS将智能体构建为一个自回归的参数化策略,并利用统一的键鼠动作空间进行训练,包括持续预训练和后训练两个阶段。

在预训练阶段,团队采用的ReAct范式结合稀疏推理机制——仅在关键决策点进行推理和行动,以模拟人类认知模式。

具体做法包括:

离线的思维链与在线的“边做边说”:标注者在执行任务时,通过音频实时表达思考,生成原生、即时的ReAct序列。多模态同步采集:系统并行录制屏幕帧、鼠标键盘输入及音频,然后通过ASR转文字,再用大语言模型进行降噪和逻辑增强。视觉锚点因果对齐:用屏幕鼠标光标作为锚点,精确对齐每个动作信号到其执行帧,还原因果关系链。轨迹构建与优化:将两帧间的所有键鼠操作合并为动作事件,无操作标记为no-op;推理时时间戳重新定位到语义相关的动作,生成高度同步、因果一致的训练序列。

此外,为解决“行为惯性”问题,Game-TARS引入了指数衰减权重,对连续重复动作按指数降低权重,确保新动作获得足够关注,让模型更专注于高熵动作转变,学习出更稳健、泛化能力更强的策略。

在超过2万小时、约5000亿token的游戏数据上完成大规模预训练后,研究进入后训练阶段,进一步强化智能体在特定任务中的执行能力和交互智能,重点提升三大核心能力:

指令遵循:随机替换按键绑定(如将W键换成X代表“向前”),迫使模型依赖系统提示理解操作语义。同时让模型基于当前帧预测中间动作,加深对动作-状态因果关系的理解。稀疏思维能力:定位关键决策点,仅在高熵步距增强推理;通过拒绝微调强化高效稀疏思维,让智能体学会在关键时刻深思熟虑。长期记忆:引入双层记忆机制——短期记忆保存最新图像,长期记忆只保留精炼的稀疏思维文本。

此外,为了将能力扩展到游戏之外,后训练还引入了跨领域轨迹数据,包括代码生成、GUI自动化和科研任务,帮助Game-TARS从游戏玩家成长为多功能计算机用户。

在具体的训练细节上,研究采用了统一的、单阶段的持续预训练方法,将所有数据源融合在一起,并对模型进行了超过5000亿token的训练。

在后训练阶段,对约200亿个高质量token进行了微调。

实验结果验证

研究团队首先通过在《我的世界》中测试智能体的能力,验证了统一动作空间和大规模持续预训练的有效性。

与基于grounding或API的动作方式不同,研究发现统一动作空间在训练数据少于100亿时,初始成功率方面并未超越基于GUI动作的智能体。

然而,统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据,并且智能体能够使用一致的格式对所有游戏进行预训练。

扩展实验证实,这种统一动作空间为实现通用智能体提供了卓越的基础。

当在大量的通用计算机使用数据语料库上进行训练后,基于统一动作空间的Game-TARS在《我的世界》中的表现比之前最先进的专家模型提高了约2倍。

正如开头演示所展示的,研究进行了广泛评估:包括FPS游戏Vizdoom、3D模拟器Miniworld和在线网页游戏。

实验表明,Game-TARS的迷你版本在各种任务上都超越了知名的预训练模型,如Gemini-2.5-Pro、GPT-5和Claude-4-Sonnet,展示了其在跨领域中的卓越性能。

此外,实验表明Game-TARS在训练和推理过程中都具有可扩展性。

总的来说,Game-TARS依靠简单通用的原生键鼠动作空间,实现了大规模跨领域训练。

这一设计不仅提升了智能体的扩展性,也为未来在更多任务和环境中的泛化能力奠定了坚实基础。

团队背景

Game-TARS的第一作者是北京大学人工智能研究院博士研究生——王子豪。

王子豪师从梁一韬教授,主要研究方向聚焦于开放式通用智能体的构建,涵盖计算机应用、具身游戏与深度研究等领域,致力于通过大型预训练模型提升智能体的泛化与自主能力。

目前,他在字节跳动Seed团队担任研究实习生。

来源:https://www.51cto.com/article/828521.html

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

一加Ace 6评测:7800mAh电池配165Hz屏的旗舰体验

10月23日消息,一加正式宣布将于10月27日发布一加 Ace 6新机。一加中国区总裁李杰将其称为“史上最强Ace”,并强调这款产品

2025-10-31.

奥特曼揭秘GPT-6:正式改名GPT-6.7,实现重大技术跨越

OpenAI首席执行官山姆・奥特曼近日在社交平台X上宣布,公司计划将下一代语言模型GPT-6更名为GPT-6-7。这一突如其来的命名调整引发业界关注,但最新尚未就具体原因作出说明。据科技媒体披露,奥

2025-10-31.

谷歌AI转型财报解读:传统业务与AI融合的中国经验

谷歌母公司Alphabet近日公布了最新季度财报,数据表现全面超出市场预期,引发资本市场热烈反应。财报显示,公司当季总营收达1023 46亿美元,同比增长16%,较华尔街预期高出逾20亿美元。摊薄每

2025-10-31.

2025日本移动出行展:日系车企蓝图,揭秘未来出行新趋势

在近期举办的日本移动出行展上,各大车企纷纷亮出创新产品与技术,勾勒出未来出行的多元图景。这场展会不仅展示了传统汽车领域的突破,更将视野拓展至海洋、天空乃至太空,展现了日本车企对未来移动出行的全面构想

2025-10-31.

00后天才学生回归!Sora核心贡献者与OpenAI团队重塑超强AI

OpenAI内部一支由年轻工程师组成的特种团队,正悄然推进一项可能改变人工智能发展轨迹的重大项目。这支三人小组的核心成员Will Depue,这位年仅22岁便在AI领域声名鹊起的工程师,正带领团队向

2025-10-31.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
诸神皇冠手游正
诸神皇冠手游正 棋牌策略 2025-10-31更新
查看
我功夫特牛
我功夫特牛 休闲益智 2025-10-31更新
查看
装甲纷争决定
装甲纷争决定 飞行射击 2025-10-31更新
查看
掘地求升2正
掘地求升2正 休闲益智 2025-10-31更新
查看
漫威对决国际
漫威对决国际 棋牌策略 2025-10-31更新
查看
时空猎人3小米
时空猎人3小米 角色扮演 2025-10-31更新
查看
会说话的金杰猫游戏
会说话的金杰猫游戏 休闲益智 2025-10-31更新
查看
挂江湖
挂江湖 角色扮演 2025-10-31更新
查看
NBA2K20手游
NBA2K20手游 体育竞技 2025-10-31更新
查看
儿童宝宝连连看
儿童宝宝连连看 休闲益智 2025-10-31更新
查看