当前位置: 首页
科技数码
中科少年班校友打造进化式AI记忆,创新解题效率减半

中科少年班校友打造进化式AI记忆,创新解题效率减半

热心网友 时间:2026-01-19
转载

今年 26 岁的魏天心,是中国科学技术大学少年班毕业生,目前在美国伊利诺伊大学香槟分校读博,同时也是谷歌 DeepMind 的实习生。实习期间,他与所在团队围绕大模型智能体在长期使用过程中如何积累和利用经验这一问题,构建了名为 Evo-Memory 的评测框架,用于系统性刻画智能体在测试阶段的记忆进化行为,即如何在持续使用过程中,像人脑一样不断积累经验,并逐步提升解决问题的能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


图 | 魏天心(来源:魏天心)

魏天心让 Evo-Memory 去挑战数学竞赛题目、研究生级别的科学问题、甚至让其在虚拟实验室里完成复杂的多步骤人物。结果发现在某个虚拟任务中,新型 AI 的步骤从平均 22.6 步减少到了 11.5 步,这说明其学会了更优的路径和方法。

即使任务的难度突然变化,或者记忆里混入了一些失败经验,记忆进化之后的 AI 也能保持稳定的表现,因为它会主动整理和优化记忆,而不是被杂乱的信息干扰。


(来源:https://arxiv.org/abs/2511.20857)

有了 Evo-Memory:AI 变得会更会搜索,面对新问题的时候 AI 会迅速在记忆里找到类似的情况;AI 也会变得更会思考,不仅会查看旧有答案,还会分析此前在给出旧有答案时是怎么想的以及使用了什么方法;AI 还会变得更会自我优化,每当解决一个新的问题,AI 就会把这次的经验比如怎么想的、怎么做的、结果如何等内容整理好,整理好之后还会扔掉没用的、突出有用的。

这个过程叫做测试时进化,即每次在被使用以及每次在解决问题的时候,AI 都在实时地自我学习和自我进化。为了测试这种能力,魏天心设计了一个名为 Evo-Memory 的基准测试,把数学题、科学实验和虚拟世界任务等十多种不同类型的挑战,编成连续的任务流,让 AI 一个一个去完成,结果发现它果然可以借助以往经验解决新问题。

魏天心告诉 DeepTech:“我们此次成果的核心贡献是系统性地定义、设计并评估了大模型智能体的测试时学习能力。也就是在不改变模型训练参数的前提下,让智能体通过自我演化,实现跨任务、跨时间的持续改进。”


(来源:https://arxiv.org/abs/2511.20857)

过去两年,大模型和 AI 智能体的能力提升很快,但在实际部署后魏天心发现它们几乎不会从经验中学习。大多数评测默认它们是一次性系统,而在现实中,智能体是长期运行的。

它会不断遇到新情况、会犯错、会修正,这才符合真实世界的背景。因此,本次研究不仅关注它当下的能力,更关注它能否持续进化、持续从经验中学习,并把这种进化变成可控、可衡量的一个系统性过程。

为了让 AI 学会进化记忆,魏天心构建了一个基准测试框架,对相关方法进行了全面评估,并在其中提出并实现了两种关键测试方法,用于刻画智能体在持续学习过程中的记忆进化行为:

第一个方法叫做 ExpRAG,负责经验检索与聚合。其实它是一个错题本,每当 AI 遇到新题目的时候,它就会立马去错题本里搜搜看,看看是否有类似的旧题目和旧答案。然后,它会把找到的旧有例子和当前题目放在一起思考并给出新答案,最后再把这次的新经历记录到错题本里。

第二个方法叫做 ReMem,它能让 AI 进行协同的推理、行动和记忆,并能给 AI 装上“三核处理器”。首先是思考核,专门负责分析问题和制定计划;其次是行动核,专门负责执行具体的操作或者给出答案;再次是记忆整理核,这是一个全新的部分,它专门负责管理经验宝箱,实时地判断哪些记忆有用、哪些应该合并或删除,让记忆库始终保持在最佳状态。

这三个核心协同工作,让 AI 在解决问题的同时,不仅可以思考怎么做,还能同步思考自己之前学的哪些经验能够用上、这次的新经验应该怎么存,真正实现了边学边用和越用越聪明。


(来源:https://arxiv.org/abs/2511.20857)

魏天心补充称:“研究过程总体顺利,但有几个发现很有意思。一是如果记忆模块设计不当,无法正确从经验中学习,错误可能会随时间积累,导致效果反而变差。二是目前很多方法难以在不同数据集上取得稳定的提升。

这说明提升空间还很大,而且目前的方法大多只是提出了新的测试流程,尚未触及更本质的层面。未来,我认为会有更多工作出现,进行更深入的分析和分离实验,以获得更本质的结论。”

谈及在 DeepMind 的实习体会,他表示:“首先,DeepMind 最直观的感受是研究氛围十分浓厚,同时内部交流非常开放。你可以很容易地在内部找到在相关方向有深入研究的研究人员进行讨论,无论资历或岗位背景,都可以围绕具体研究问题直接沟通,使想法能够被快速反馈和打磨。

此外,公司的整体工作环境和支持条件包括食堂健身房等都非常好。在实习过程中,我还进一步了解了公司重点关注的前沿研究方向和核心业务,这对我后续的研究方向和发展规划产生了积极影响。”

一步步走到今天,他也感恩于父母的帮助和支持。他回忆称:“一方面,父母没有给我很大压力,不会因为我某次考试或状态的起伏而施加额外压力。另一方面,对于一些关键机会,比如报考中科大少年班或者参加竞赛学习,都是父母建议和鼓励我去尝试的。

如果没有他们的信息搜集和建议,我可能在高二时就不知道还有这样的渠道,从而错过机会。所以,父母在信息搜集和长远规划上的作用非常大。作为学生,准备高考和竞赛压力大,很容易忽略这些信息,而父母从旁观者的角度能更好地帮助梳理。”

目前,魏天心在美国伊利诺伊大学香槟分校读博士五年级,主要研究方向是大模型与智能体的高效化研究,包括长期推理、自我进化以及在推荐系统等领域的应用。

参考资料:

相关论文 https://arxiv.org/abs/2511.20857

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KJKVEBLS05119734.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
佳能RF镜头路线图更新:每年将推出6至8款新镜头

佳能RF镜头路线图更新:每年将推出6至8款新镜头

  根据外媒最新采访,佳能明确表示将继续保持每年发布6至8支新RF镜头的计划。目前RF镜头阵容已超过60支,包括电影镜头。  佳能强调了RF卡口在大口径和短后对焦距离上的优势,使得像RF14mmf

时间:2026-03-30 15:37
2nm芯片终结性价比时代,旗舰手机价格破5000元

2nm芯片终结性价比时代,旗舰手机价格破5000元

快科技3月20日消息,近日关于国产子系迭代旗舰手机定价的讨论引发关注。有传闻称新机起售价可能定在4599元,但业内资深人士戈蓝对此明确表示,最终定价肯定不止于此,暗示涨价已成定局。这一价格波动的核心

时间:2026-03-30 15:25
极压缩与量化驱动大模型革新:魔乐 GeekDay上海站技术解析

极压缩与量化驱动大模型革新:魔乐 GeekDay上海站技术解析

近日,由魔乐社区主办、华为昇腾团队深度支持的“极限压缩 量化未来”Modelers GeekDay上海站在模速空间成功举行。本次活动聚焦大模型量化技术这一产业落地关键环节,汇聚了来自学术界与产业界的

时间:2026-03-30 15:19
2026团队AI工具选型指南:三大IM平台接口效率实测与排名

2026团队AI工具选型指南:三大IM平台接口效率实测与排名

AI大模型的能力已经就位,但对于大多数团队来说,真正的卡点在于怎么最快用起来。本文以OpenClaw为接入工具,实测了钉钉、飞书、企业微信三大平台的完整配置流程,从效率、门槛、生态三个维度给出对比结

时间:2026-03-30 15:19
5000元档开学笔记本推荐:华为MateBook实力选购指南

5000元档开学笔记本推荐:华为MateBook实力选购指南

开学季来临,预算有限却追求实用与品质的大学生群体,正迎来一年中最关键的装备升级窗口——国补后5000元,成为当下最炙手可热的笔记本电脑价格锚点。这个数字不仅精准卡在学生党承受力与性能需求的黄金交界,

时间:2026-03-30 15:19
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程