数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

约翰斯·霍普金斯大学打造AI边玩边学游戏评测场

AI热点日报时间：2026-07-02

热点解读

人类究竟是如何学习的？回想一下你初次打开一款全新电子游戏时的情景。地图完全陌生，哪些物品有用毫无头绪，敌人可能从哪个角落突然出现也无从预判。你唯一能做的，就是开始探索、经历失败、记住教训、逐渐摸清规律，最终形成一套属于自己的策略。在这个过程中，你的大脑始终在学习——它并非在考试前临时抱佛脚，而是在

人类究竟是如何学习的？

回想一下你初次打开一款全新电子游戏时的情景。地图完全陌生，哪些物品有用毫无头绪，敌人可能从哪个角落突然出现也无从预判。你唯一能做的，就是开始探索、经历失败、记住教训、逐渐摸清规律，最终形成一套属于自己的策略。在这个过程中，你的大脑始终在学习——它并非在考试前临时抱佛脚，而是在实战中不断更新对世界的认知。

现在，把这个任务交给人工智能。大多数AI的训练方式更像是这样：让它提前刷遍所有可能的题目，然后在考试时凭借记忆作答——而在测试过程中，它不会、也不被允许继续学习任何新东西。这与真实世界的运作方式相去甚远。现实中，无论是人类还是机器，都需要在执行任务的过程中持续提升自己的认知水平。毕竟，没有人会在你工作时喊停，说“先别干了，回去重新训练再来上班”。

正是为了探究“AI能否做到边做事边学习”这一核心问题，约翰斯·霍普金斯大学的研究团队开发了一套全新的评测框架，命名为 AgentOdyssey——直译即为“智能体的奥德赛”。这个名字寓意深刻，暗示着一场在未知世界中不断摸索、不断前进的漫长旅途。

一、为什么现有测试方法不够用

先简单了解一下背景。近年来，以GPT为代表的大语言模型展现出了惊人的推理能力，研究者们也开始尝试让这些模型操控“智能体”——即那些能在环境中感知、决策并采取行动的AI系统。这些智能体被放入各种测试环境：有些模拟家务任务，比如“把苹果放进微波炉加热”；有些模拟网页浏览；还有些模拟机器人操作。

但这些测试有一个共同的隐含前提：AI在测试过程中不允许学习新知识。它就像一名参加期末考试的学生，考前已学完所有内容，考试时只能依靠记忆答题。这种设定在实验室中便于控制，却与真实世界完全脱节。

更棘手的是，即便部分研究确实考虑了“学习”这一要素，通常也是先让AI在大量游戏局次中训练完毕，再进行测试——学习与测试依然是两个独立阶段。而在真实场景中，一个部署上线的AI系统必须在运行过程中持续学习，没有机会暂停、回炉、重新训练再投入使用。

研究团队将这种真正需要探究的能力称为 “测试时持续学习”——简单来说，就是AI在实际应用的过程中，一边执行任务一边学习，并且所学到的知识能帮助它下一步做得更好。这与传统的“持续学习”概念有所不同：传统持续学习假设存在一个清晰的训练-测试边界，但这里研究的是没有这条界线的情况。

二、AI要在游戏中学什么：五种核心能力

为了研究测试时的持续学习，研究团队首先需要明确：一个能够在真实世界中持续学习的AI，究竟需要具备哪些能力？他们的灵感来源于人类的婴儿和幼儿——毕竟，人类是迄今为止最成功的“持续学习者”。一个孩子在出生后的头几年里，无需任何老师告知规则，就能通过与环境的互动学会大量知识和技能。

研究团队归纳出五种关键能力，它们彼此紧密依存，缺一不可。

第一种是探索。就像冒险者进入一片未知森林，AI需要主动寻找新地点、新物品、新角色，而不是停留在已知的安全区域反复重复同样的事情。只有充分探索，才能积累足够的素材供后续学习使用。

第二种是情景记忆，即记住“我做过什么”。例如，AI在三百步之前把一颗宝石放在了某个角落，现在需要找回来——这需要的是对自身经历的记忆，而非对规则的理解。人类对此习以为常，但对AI而言却颇具挑战。

第三种是世界知识习得。AI需要通过与环境互动，掌握关于这个世界的具体规律——某种材料能锻造出什么武器，深夜里哪些区域更加危险，特定时间段敌人的攻击力会增强。这些知识在游戏开始时无人告知AI，必须依靠它自己摸索。

第四种是技能学习，即学会更高效地完成某类任务。比如在纸上记录合成配方，下次需要合成时直接查阅，而不是每次都从头开始摸索。这更接近于“程序性记忆”——知道如何做一件事，而不仅仅是了解这件事的相关知识。

第五种是长程规划。游戏中的主线任务往往需要分解成多个步骤，有些步骤之间相隔数百个行动——比如先在某地采集材料，用材料合成钥匙，用钥匙打开图书馆的门，然后才能去图书馆与商人交易。AI需要在整个过程中持续追踪目标，而不是刚完成一个小步骤就忘记了大目标。

三、AgentOdyssey是什么样的游戏

研究团队设计AgentOdyssey的核心挑战在于：如何创造一个可以反复使用、但又不会被AI提前“背答案”的测试环境？他们的解决方案是利用AI自身来生成游戏——这招相当巧妙。

AgentOdyssey是一个文字冒险游戏的生成框架。AI看不到图像、听不到声音，所有关于世界的信息都以文字形式呈现。游戏世界由三类基本实体构成：地点（城堡大厅、图书馆、山洞等）、物品（木剑、草药、铁锭等）以及NPC（非玩家角色，包括友善的商人和敌对的怪物）。这些实体之间的空间关系构成一张“世界图谱”，就像用数据结构表示的地图。

游戏规则分为两类。“行动规则”定义了AI主动执行某个行动会产生的效果——例如“捡起物品”、“攻击怪物”、“合成道具”。“步进规则”则定义了世界在AI不进行任何操作时如何自行运转——比如NPC会随机在地点间巡逻，夜深时怪物会在噪音大的地方自动出现，特定条件满足时商人会在地上留下写有信息的纸条。

每一步，AI会收到一段文字描述：当前时间、所处位置、周围有什么物品、有哪些NPC、自身状态（血量、等级、手中物品）。然后，AI需要从一个固定的动作库中选择一个动作执行，例如“进入图书馆”、“捡起铁锭”、“向商人出售水晶矿石”。

关键在于：游戏中的知识——比如哪种材料能合成什么道具、某个NPC在什么时间段特别危险、打败某个怪物会掉落什么物品——这些都不会提前告诉AI，必须通过探索和互动去发现。而且，每次生成的游戏内容都不相同，因此AI不可能依靠背诵来应对。

研究团队使用一个大语言模型驱动的生成引擎来创建这些游戏。引擎由三个子模块构成：实体生成器负责创建新的地点、物品和NPC；规则生成器负责生成新的行动规则和步进规则；任务生成器负责生成主线任务和支线任务。整个系统以一个“基础游戏”为模板，让AI在理解这个模板的基础上，创造出结构相似但内容完全不同的新游戏。

生成之后，系统还会自动进行测试——用随机行动的AI试玩游戏，检查是否存在程序错误。如果有错误，就将反馈信息返回给生成器进行修复。这保证了生成出来的游戏在技术上是可运行的。

与现有的文字游戏环境相比，AgentOdyssey有几个独特之处：游戏内容可以无限生成，不受固定数据集的限制；世界动态独立于AI行动自发运作（NPC会自行移动，时间会自然流逝）；游戏任务可以延伸到极长的步骤数；而且由于内容是新生成的，不存在被AI提前“背诵”的可能。

四、如何衡量AI表现得好不好

为了评估AI的表现，研究团队设计了一套多维度的指标体系，而不是仅仅关注“完成了几个任务”这一个数字。

游戏进度方面，主线任务完成的阶段数是核心指标，辅以支线任务完成数、探索过的地区数、合成过的新物品数、击败过的不同怪物数。由于不同运行之间的绝对数值可能存在差异，研究团队进行了归一化处理，使不同AI之间的比较更为公平。

除了游戏内的直接表现，研究团队还设计了四项诊断测试，专门用于探查AI在五种核心能力上的具体水平。

世界知识问答是最直接的一项：在游戏开始前后，分别对AI提出一批关于游戏世界的选择题，例如“合成锁具需要什么材料？”“哪个地区与农场相连？”通过比较前后的答题准确率，可以衡量AI在游戏过程中究竟学到了多少新知识。这类问题同时也能检测数据污染——如果AI在游戏开始前就能高准确率地答对关于新生成游戏世界的问题，说明这些内容可能曾出现在它的训练数据里，需要予以过滤。

情景记忆问答则考察AI对自身经历的记忆：比如“你在哪里丢下了铁剑？”“你上一个击败的怪物叫什么名字？”这些问题的答案来自AI自己走过的轨迹，没有标准答案，只有基于该次游戏实际发生的事情的正确回答。

物品和动作探索率衡量的是AI尝试过多少种不同物品和动作——游戏中有83种物品和22种动作，AI探索了几种？探索率越高，说明AI在这方面的能力越强。

行动多样性则通过一个熵值公式来计算：在连续的若干步行动中，AI的行为是否多样化？如果AI总是重复同一个动作，熵值接近0；如果AI的行为丰富多样，熵值接近1。行动多样性的下降往往意味着AI陷入了某种“死循环”。

此外，研究团队还记录了每种方法消耗的总token数量——这是大语言模型处理信息的基本单位，可以粗略理解为“思考的工作量”——作为衡量计算成本的指标。

五、研究团队测试了哪些类型的AI智能体

研究团队测试了六大类AI智能体，每类采用不同的“记忆策略”，并搭配不同的基础语言模型，形成了一个相当全面的对比实验。

长上下文智能体是最直接的实现方式：将每一步的观察、推理和行动都原原本本地追加到文本中，让AI的“记忆”随着时间线性增长。这就像把整本日记摆在眼前，想回忆什么就翻哪里——但记得越多，每次思考时需要处理的内容就越庞大。

固定大小记忆智能体维持一个恒定长度的记忆窗口。最简单的实现是“滑动窗口”——只保留最近几步的记录，旧的自动淘汰，相当于只记得最近几天的事情。研究中还测试了一种称为MEM1的变体，它利用语言模型主动更新和压缩记忆，而不是机械地丢弃旧记录。

检索增强型智能体将所有经历存入外部数据库，每次做决策时去数据库中检索最相关的几条记录作为参考。这就像有一个索引完善的笔记本，无需记住所有细节，但知道去哪里查找。研究团队测试了四种变体：最基础的向量检索、Mem0（一个专门为AI记忆设计的系统）、Raptor（能对记忆进行层级摘要的检索方法）以及Voyager（最初用于Minecraft游戏的检索架构）。

参数微调智能体将经历直接“写入”模型参数中，而不是保存在外部。这类似于通过反复练习，让技能变成肌肉记忆——不需要查阅笔记，已经成为本能。研究团队使用的是LoRA，一种只更新模型参数中一小部分的高效微调方法，训练数据是AI自己与游戏互动产生的观察-推理-行动三元组。

强化学习智能体同样通过调整模型参数来学习，但驱动力不是“模仿正确答案”，而是“获得奖励”——具体采用了PPO算法，一种广泛应用于强化学习的优化方法。

隐变量记忆智能体则是一条更激进的路线：将经历压缩成模型内部的“记忆标记”，存入隐藏状态，而不是以文字形式显式保存。研究团队测试了MemoryLLM和MPlus两个系统，它们基于LLaMA 3/3.1-8B模型构建。

所有智能体都采用ReAct提示范式——在给出行动之前，先输出一段推理过程，模拟人类“先思考再行动”的习惯。基础模型方面，研究团队主要使用了OpenAI的GPT-5和GPT-5-mini，以及阿里云的Qwen3-4B，覆盖了闭源顶级模型和开源小模型两个端点。在附录中，研究团队还对比了Claude Opus 4.6、Gemini 3.1 Pro、Grok 4.1 Fast等更多前沿模型。

六、实验结果：谁表现最好，谁暴露了什么问题

研究团队进行了两轮实验。第一轮在一个由AI生成的较为复杂的游戏中运行：游戏包含18个地区、83种物品类型、13种NPC类型，主线任务共24个阶段，每个AI运行500步。第二轮使用一个较简单的游戏（14个地区、49种物品、12种NPC、17个主线阶段），专门用于深入分析参数微调智能体的表现。

从第一轮实验的游戏进度来看，以GPT-5为基础的长上下文智能体表现最好，完成了3个主线任务阶段；GPT-5加上检索增强记忆完成了2个；仅有短期记忆的固定窗口智能体完成了1个。但即使是最好的AI，也只完成了人类玩家完成的9个阶段任务中的3个——差距依然非常显著。

长上下文智能体的优势来自于两点：它储存了所有过去的经历，推理时能参考全部历史信息；而GPT-5本身对长上下文的处理能力也更强。当模型换成GPT-5-mini，表现明显下降；换成Qwen3-4B，下降更为明显。在附录的额外测试中，Claude Opus 4.6表现最佳，完成了5个阶段，但依然远不及人类的9个。

不过，长上下文智能体有一个致命弱点：计算成本随步骤数呈平方级增长。随着游戏进行，它需要处理的文本越来越长，每一步的推理代价都在增加。当研究团队尝试给它加上“反思”模块时，由于每步额外的token消耗，AI很快就撑不住了。相比之下，检索增强型和固定窗口型智能体的token消耗随步骤线性增长，控制成本容易得多。

诊断指标方面，长上下文GPT-5智能体的世界知识问答准确率在游戏前后提升了34.8个百分点，情景记忆问答准确率达到0.92，物品探索覆盖了18/83种类，动作探索覆盖了17/22种。这些数据在所有AI中是最高的，说明它确实学到了更多，也记住了更多——但这本质上是因为所有信息都在它的上下文里，相当于开卷考试。更小的模型和记忆受限的智能体，世界知识问答的提升幅度要小得多，情景记忆准确率更是普遍偏低。

从行动多样性的时间曲线来看，长上下文智能体的多样性虽然随时间有所下降，但整体维持在一个较高水平。固定窗口智能体和参数微调智能体则呈现出更陡峭的下降趋势，最终行为趋向单调，与此同时游戏进度也在同一时期进入平台期，两者高度相关。

MemoryLLM和MPlus这两种基于LLaMA 3/3.1-8B的隐变量记忆智能体，几乎无法产生有效行动，无效行动率高达100%，完全无法在游戏中有所作为。研究团队因此无法对它们进行情景记忆评测，因为它们的轨迹里全是“等待”这一个动作。

七、短期记忆为何如此重要

第二轮实验专门聚焦参数微调智能体，结果揭示了一个贯穿全文的重要发现：短期记忆对几乎所有类型的智能体都有显著帮助，在参数微调型智能体上尤为明显。

在以Qwen3-4B为基础模型的测试中，最基础的参数微调智能体完成了0个主线任务阶段；加上反思机制后，依然是0个；加上摘要机制，完成了1个；而加上短期记忆（保留最近5步的记录）之后，完成了7个主线阶段，一跃成为该实验组中表现最强的方法，甚至超过了固定窗口智能体（6个阶段）。

为什么短期记忆如此关键？研究团队给出了一个很直觉的解释：即便游戏需要长达数百步的长程规划，AI在每一步的决策中依然需要维护短期目标。拿“收集5根木棍”这个任务举例，AI必须在收集的过程中记住自己已经捡了几根，还差几根。没有短期记忆，AI很容易在完成一个小动作之后就忘了下一步该干什么。

更引人注意的是：带短期记忆的参数微调智能体，其表现超过了没有短期记忆的固定窗口智能体。这说明，通过训练将经验写入模型参数，确实是一种有效的长期记忆形式——短期记忆负责近期目标，参数记忆负责长期知识，两者互补，才能表现出色。

相比之下，反思（让AI在行动后总结经验教训）和摘要（让AI定期生成记忆摘要）这两种机制，在以推理模型为基础的设置中没有显示出帮助。研究团队认为，推理型模型在生成回答时已经内置了类似反思和摘要的过程，额外的显式机制反而增加了冗余和计算负担。

然而，参数微调智能体也暴露出了一个严重问题：在诊断测试中，它们在游戏后的世界知识问答准确率反而低于游戏前，情景记忆准确率也接近于零。研究团队认为这是灾难性遗忘——模型在学习新知识的同时，把原本掌握的基础语言能力和常识给“覆盖”掉了，就像往一块黑板上反复写新内容，旧内容被擦掉了。这被研究团队视为未来工作中需要重点解决的问题。

八、AI在五种核心能力上的具体失败方式

研究团队对智能体的失败模式做了细致的归纳，为每种核心能力总结出了具体的失败表现。

在探索方面，AI普遍表现出“目标导向”的偏狭：只去捡和当前任务直接相关的物品，那些暂时看起来没用但将来可能作为合成原料的东西，它们基本无视。这种“只做眼前事”的策略，让它们错过了许多关键的中间资源，导致后续任务无法推进。对行动空间的探索同样不足，大多数AI没有尝试所有可用的动作，因此对部分动作的效果完全不了解。

在情景记忆方面，最常见的失败是陷入重复循环：AI执行一段相同的动作序列，得到相同的失败反馈，却依然重复同样的行为，就像走进了一条死胡同却不知道转身。另一个问题是“幻觉”——AI声称某个物品在某个地方，但实际上物品已经不在那里了（或者根本就没在那里），说明它的记忆并不准确，而是包含了被编造出来的内容。

在世界知识习得方面，较小的模型尤其容易“发明”不存在的合成配方，或者将正确的信息接收了却没有更新自己的知识体系——就像老师讲了一遍课，学生坐在那里却根本没有吸收进去。

在技能学习方面，当一个敌对NPC有固定的攻击模式时，大多数AI无法从多次交战中归纳出对策，而是每次都凭直觉反应，没有形成可复用的战术。更明显的是，没有任何被测试的AI学会了“把合成配方写在纸上供以后查阅”这一在游戏中明确提供了工具支持的技能。

在长程规划方面，AI在完成一个子任务后，经常“忘了”回去推进主线——比如去做了一个支线任务，做完之后不知道下一步该干什么，就在原地打转，而不是回到主线的下一个阶段继续推进。

此外，研究团队还发现了成本和效率问题：许多AI使用了过多的推理token，成本高，但实际决策质量并不匹配。研究团队指出，未来的智能体需要更高效的推理机制，能以更少的“思考量”做出更好的决策。

九、这一切意味着什么

归根结底，AgentOdyssey做了一件很重要的事：它把“AI能否在做事的过程中持续学习”这个问题，变成了一个可以被严格测量的问题，而不只是一个泛泛而谈的愿景。

研究的结论是清醒而务实的：即使是目前最强的AI模型，在需要同时具备探索能力、长程记忆、世界知识习得、技能积累和任务规划的场景下，表现依然与人类有相当大的差距。最好的AI完成了24个主线阶段任务中的5个（Claude Opus 4.6），而人类可以轻松完成9个，而且人类在没有任何说明的情况下玩这个游戏，探索、记忆、学习、规划的过程基本是无意识完成的。

这并不意味着现有技术一无是处。长上下文模型在信息管理上有天然优势，但受限于成本；短期记忆是一个廉价且有效的增强手段，几乎所有类型的智能体都能从中受益；参数微调证明了在测试时将经验固化到权重里是可行的，但灾难性遗忘是必须正视的技术障碍。

这个框架本身也有它的局限。当前的AgentOdyssey只支持纯文字观察，不涉及图像或声音；每个游戏只有一个AI玩家，无法研究多智能体协作；时间是离散推进的（每步固定10分钟游戏时间），这和真实世界的连续时间流逝有所不同。研究团队在论文中明确指出了这些方向，认为可以在未来扩展。

对于AI领域的研究者来说，这项工作确实值得花时间去关注。它提出了几个非常具体的、值得深入探索的方向：如何让AI在学习新知识的同时不丢失旧能力？如何在有限的计算预算内让AI的有效决策时间跨度更长？如何让AI真正“记住”失败并从中改变行为，而不只是重复同样的错误？

这些问题没有简单答案——但AgentOdyssey提供了一个可以反复运行、可以无限扩展、可以精确诊断的实验场所。这本身就是这项研究最大的贡献之一。

当AI学会

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：约翰斯·霍普金斯大学打造AI边玩边学游戏评测场要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.techwalker.com/2026/0701/3192122.shtml

智能体

上一篇：从十五五规划看长三角苏州机场与都市圈抱团发展

下一篇：光弘科技专注多品类智能产品制造服务

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。