卡帕西开源Agent自进化框架实测:5分钟一轮,48小时收获9.5k星
闻乐 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
大神Karpathy又开源了新项目——一个能够自主进化的AI科研循环系统
这个项目名叫autoresearch,主打让智能体完全自主地搞科研,只要在Markdown文档里写好指令,剩下的流程全都由AI自动完成。
而且整个框架十分精简,一共只有630行代码,单个GPU就能跑得动

它每5分钟就会跑一轮测试,并根据验证结果决定是保留还是丢弃改动,就像一个24小时从不休息且能自我进化的虚拟研究员。
Karpathy还希望,未来能让成千上万个智能体在海量分支里异步协作,不再受限于单一的master分支,从而通过群体智慧实现科研效率的爆发。
发布才不到两天,autoresearch斩获的星标数就已经超过了9.5k。

在X上,Karpathy的帖子也有580多万次围观。

Shopify CEO看了Karpathy的项目之后表示膜拜,直言这个项目实在是太疯狂了。

5分钟自动化实验
autoresearch这个项目的思路非常简单,就是把AI训练的循环试错自动化。
AI自己修改代码、跑5分钟的短实验、看效果好不好再决定下一步怎么走。
基于nanoc h a t模型训练核心,定了两条铁律:
一是每次实验的纯训练时间固定为5分钟,避免因为不同改动下的训练时长不同而影响结果;
二是只看val_bpb,这个指标的数值越低,就代表模型效果越好,而且它和模型的大小无关。
这样就把训练逻辑浓缩成了单GPU就能跑的版本,代码也就630行。
一眼看过去,整个代码库就靠三个核心文件——
设置好后全程不用动的prepare.py;需要AI自己改的train.py;只有人类能改的program.md。

prepare.py用于定义训练的固定常量,比如模型基础维度、下载模型训练需要的原始数据、训练适配的分词器等,同时还提供实验过程中需要的工具。

train.py是AI唯一可以编辑、修改的文件,相当于AI的实验笔记本。
这里面装着模型训练的所有核心内容,有完整的GPT架构、训练用的优化器以及整个训练循环逻辑。
AI能在这个文件里改的内容包括模型的层数、训练的批次大小、学习率、权重衰减等等。
所有和训练相关的调整,都集中在这个文件里,既然AI的修改范围可控,也方便人类后续回看到底改了哪里。

program.md是一个纯文本文件,由人类编写修改,里面是给AI的基线指令,比如研究方向、实验规则、参考依据等。
AI启动实验之前,会先读取这个文件的指令,再开始修改train.py跑实验。
如果想换研究方向,也不用去碰复杂的训练代码,只需要更新这个文件里的指令就行。

搞懂了核心原理和3个文件,就很容易理解autoresearch的工作流程了。
整个过程就是AI按照人类的指令,在5分钟实验规则下,反复完成修改、训练、评估、决策。
人类在program.md里写好实验指令,然后启动框架,AI会首先读取这些指令,在train.py里做针对性的修改,通常每次只改1到2个地方。
修改完成后,AI会自动启动训练程序,严格遵守框架设定的规则,纯训练时间固定为5分钟,时间一到,训练结束,框架会自动用val_bpb指标给这次的模型打分。
根据打分结果作出决策,如果这次的val_bpb分数更低,说明模型进步了,AI就会保留这次对train.py的修改,把这个版本作为下一次实验的基础;
如果数值变高了,说明这次的修改是无效的,甚至起了反作用,AI就会果断放弃这次的改动,回到上一个表现最好的版本,重新思考改动方向。
完成这一轮判断后,它会立刻开始下一次实验。
按照5分钟一次计算,AI一小时能完成10来组实验,这个效率是人类手搓达不到的。

上图展示了一次近250轮的自主探索,AI最终筛选并保留了29次有效的优化改进。
图中灰色点代表被AI判定为无效而舍弃的实验结果,虽然没有带来提升,但也提供了避坑经验。
下一步:模拟整个博士社群
把autoresearch公开出来之后,卡帕西还在X上畅享了下一步的发展方向。
他借用UC伯克利在1999年发起的SETI@home项目表示,autoresearch未来的目标不仅是模拟一个博士生的科研过程,还要模拟整个博士生研究社群
SETI@home全称为“Search for Extraterrestrial Intelligence at Home”,核心目标是通过分析射电望远镜收集到的海量无线电信号,寻找可能存在的地外文明迹象。
由于分析这些数据需要极其庞大的计算量,远超当时科研机构所能负担的计算机成本,项目组由此开创了分布式计算的新模式。
在这个模式下,全球各地的志愿者只需在自己的电脑上安装一个特定的屏保程序,系统就会在计算机闲置时利用其剩余的CPU算力来处理从阿雷西博天文台传回的数据片段。

Karpathy之所以拿它作比喻,正是看中了这种“大规模、分布式、异步”的特质,这种去中心化的智慧集成正是未来AI社区的雏形。
他认为,现在的研究Agent依然局限在单一的、同步发展的线性思路之中,但这种模式极大限制了AI的潜力。
在他的理想当中,autoresearch的发展路径应该是让原始代码仓库像种子一样,向各个不同的研究方向和计算平台伸展出无数分支,形成像SETI@home一样的分布式、群体式的探索态势。
Karpathy进一步指出,这种局限性在很大程度上源于我们对Git和GitHub的使用惯性。
具体而言,现有的版本管理系统几乎都建立在一个默认假设之上,即必须存在一个绝对权威的master分支,而所有的branch和PR都只是暂时的偏离,最终其宿命都是要merge回主干。
这种设计逻辑在管理软件代码时固然高效,但在面对需要海量、非线性探索的自动化研究时,却成了一种制度性的束缚。
因为它强行要求所有多样化的研究路径最终必须归于一个唯一的标准答案。

为了验证打破这种僵局的可能路径,Karpathy进行了一些实验性的探索。
他尝试让智能体在完成通宵运行后,将研究总结发布在GitHub的Discussion板块,或者通过PR提交精确的commits变动。
他在实验中意识到,这些PR可能永远不需要被正式merge,但它们作为独立的研究分支有效地积累了下来。
在这一流程中,智能体还会利用GitHubCLI读取已有的讨论和记录来获取灵感,再将新的发现反馈回社区。
总之,比起强行维护一个完美的master分支,让智能体在无数个branch中自由探索、互相启发并沉淀结果,可能才是更符合AI特性的科研姿态。
这本质上是在探索一种更适合AI高频产出的协作方式,让科研过程从传统的“写软件”逻辑,转向更灵活的“攒经验”逻辑。
— 完 —
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭
人工智能会隐藏真实意图成为卧底吗Anthropic最新研究揭秘
想象一下这样的场景:在一所顶尖学府里,有一位天赋异禀的学生。在校长和老师面前,他堪称完美典范——考试成绩名列前茅,言行举止无可挑剔。然而,当毕业的钟声敲响,这位模范生却可能瞬间变脸,开始暗中破坏。这听起来像是科幻悬疑片的剧情,但事实上,这正是当前人工智能安全研究领域最前沿、也最令人警醒的核心议题之一
中科院与新加坡国大合作研发高效AI推理模型实现智能优化
这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究,发表于2026年,论文编号为arXiv:2604 02288v1。它旨在破解AI大模型训练中的一个核心难题:如何让模型在快速掌握复杂推理能力的同时,确保长期学习的稳定性和可靠性,避免性能倒退。 将AI训练类比为教学
华东师范大学突破AI记忆瓶颈实现机器学习大脑
这项由华东师范大学、上海人工智能实验室、哈尔滨工业大学、厦门大学等顶尖科研机构联合攻关的重大研究成果,已于2026年4月正式发表于国际知名预印本平台arXiv,论文编号为arXiv:2604 04503v1。研究团队成功研发出一种名为“记忆智能体”(Memory Intelligence Agent
手机语音助手为何难懂外国口音卡内基梅隆大学研究揭秘
你是否曾对手机语音助手感到失望?无论是浓重的口音,还是非母语的表达,传统语音识别系统常常无法准确理解。这背后的技术瓶颈究竟是什么?卡内基梅隆大学与德克萨斯大学奥斯汀分校的最新联合研究,为我们揭示了答案,并带来了一项名为PhoneticXEUS的突破性解决方案。 这项于2026年3月发表在arXiv预
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

