Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭
Karpathy的autoresearch项目之所以能引发广泛关注,其核心魅力并不在于技术上的复杂,而在于它揭示了一个朴素却深刻的道理:当一个智能体(Agent)能够自主地进行试错、评估与迭代时,它所创造的价值将远远超越单次任务的执行。
初次接触这个项目时,很容易产生一种“这不就是个自动跑实验的脚本吗?”的疑问。然而,深入探究后便会发现,它实际上触及了当前AI Agent发展的一个关键瓶颈:许多Agent并非能力不足,而是缺乏从过往错误中持续学习与进化的机制。这不禁让人联想到在使用OpenClaw或Claude Code时的常见痛点——它们能出色地完成单次指令,但每次遇到相似问题,都仿佛一张白纸,无法记住上一次的教训或优化成果。
Autoresearch的核心洞察
Karpathy在3月初开源的autoresearch,本质上构建了一个极其精简的“AI研究循环”框架。整个项目仅用630行Python代码实现,却驱动Claude Code在两天内自主完成了700次实验,并在他本人已优化数月的代码基础上,进一步将效率提升了11%。
图片
其运行机制清晰明了:Agent读取代码→提出改进假设→运行限定时间的实验→评估结果→保留成功方案→进入下一轮循环。
但这里的关键洞察在于,它并非传统的超参数调优,而是开放式的代码修改。Agent被允许改动代码的任何部分,无论是网络架构、注意力机制还是分词器。其搜索空间是“大语言模型(LLM)所能构想的一切”,这使其与传统的自动化机器学习(AutoML)工具产生了本质区别。
Shopify的首席执行官Tobi Lutke利用这一框架,在一夜之间跑了37个实验,并获得了19%的性能提升。这个案例有力地印证了Karpathy的观点:任何拥有可评估指标的问题,理论上都可以被“autoresearch化”。
当这个思路遇到OpenClaw的Skill系统
这自然引出了一个联想:OpenClaw的Skill(技能)机制。目前,OpenClaw社区已经存在像self-improving-agent这样的Skill,它通过将错误、学习点和功能请求记录到.learnings/目录来实现一定程度的持续改进。
然而,现有的自我改进Skill存在一个明显的局限:它是被动的。只有当用户明确指示“记住这个错误”,或者Agent自身检测到失败时,才会触发记录行为。它缺乏autoresearch那种主动的“提出假设-执行验证-迭代优化”的完整循环。
一个更激进的设想是,将autoresearch的循环机制与OpenClaw的Skill系统相结合。
具体而言:
- Skill作为可进化单元:每个Skill不再仅仅是静态的提示词(prompt)文件,而是一个可以被Agent读取、分析、修改并测试的“实验对象”。
- 自动评分机制:每次Skill执行后,由另一个轻量级Agent(例如Claude Haiku)担任评估器,从正确性、完整性、边界情况处理等多个维度进行打分。
- 进化触发器:当某个Skill的平均评分低于预设阈值时,自动进入修复与优化循环;当评分稳定高于某个阈值并通过多次测试后,则将其“结晶”为稳定版本。
- 跨会话记忆:利用OpenClaw的工作区文件(如SOUL.md、AGENTS.md、TOOLS.md)作为长期记忆的载体,确保进化过程不被会话中断所影响。
事实上,GitHub上已有名为singularity-claude的项目在进行类似的探索。它实现了Skill的创建、评分、修复与结晶的完整闭环,使得Skill能够通过递归式的自我改进不断进化。
Claude Code的Memory 2.0提供了基础设施
要让上述设想真正落地,Claude Code近期的更新提供了关键的基础设施支持。
Anthropic在3月发布的Memory 2.0与Agentic Workflow升级,为Claude Code带来了几项核心能力:
/loop命令:支持类似cron的调度任务,可以设置循环执行的工作流。- 子Agent编排:能够将复杂问题分解为研究、规划、验证、实现、审查等多个阶段,并由不同的子Agent协同处理。
- 持久化记忆:基于文件的跨会话状态管理,确保了工作上下文和进度的连续性。
更重要的是,Anthropic的内部研究显示,Claude Code的自主性正在快速提升。从2025年8月到12月,用户执行最复杂任务的成功率翻了一番,同时每个会话所需的人工干预次数从5.4次下降到了3.3次。
这清晰地表明,用户正在逐渐学会如何为Agent“放权”——而这恰恰是Skill实现自主进化的前提条件。
一个具体的实现思路
基于以上观察,可以勾勒出一个“面向Skill的Autoresearch”最小可行方案:
核心循环(The Karpathy Loop for Skills):
读取当前skill和最近的使用记录
识别失败模式或改进机会
提出skill修改方案(prompt调整、示例补充、边界处理)
在下一次真实任务中测试
根据结果保留或回滚
重复
存储结构:
~/.openclaw/workspace/
├── skills/
│ └── {skill-name}/
│ ├── SKILL.md # 当前版本
│ ├── versions/ # 历史版本
│ ├── scores.json # 评分记录
│ └── telemetry/ # 执行日志
└── .learnings/
└── skill-evolution.md # 进化摘要
评分维度(参考singularity-claude的设计):
- 正确性:是否准确达成了预设目标?
- 完整性:是否处理了任务要求中的所有方面?
- 边界情况:对异常或非预期输入的处理是否稳健?
- 效率:提供的解决方案是否直接且简洁?
- 可复用性:其输出能否被后续的步骤或任务方便地利用?
可以设定,当Skill的平均评分低于50分时触发自动修复流程,而当评分高于90分且通过至少5次不同场景的测试后,则将其“结晶”为稳定版本,锁定不再轻易改动。
为什么这很重要?
Karpathy曾阐述,autoresearch的目标是“让Agent能够无限期地自主取得最快的研究进展,无需人类参与”。将这套机制应用到Skill层面,意味着:
首先,Skill将从一个静态的配置项,转变为一个“活”的知识体。它们能够随着使用频次和场景的丰富,不断适应使用者个人的工作习惯、项目规范以及特定的技术栈偏好。
其次,个人的知识与经验得以沉淀为可复用的“组织记忆”。一位开发者优化后的Skill,可以通过Git等版本工具在团队内部共享,甚至通过像ClawdHub这样的社区平台分发给更广泛的用户。
最后,AI Agent终于能够从错误中进行真正有效的学习。Letta的研究表明,如果只是简单地将错误历史堆砌在提示词中,Agent的表现反而可能下降。但若能像autoresearch那样,将经验转化为结构化的Skill改进,效果则能提升36.8%。
局限与边界
当然,这一思路也存在明显的挑战与限制。
最核心的难点在于评估指标的设计。机器学习训练有明确的验证集损失(如val_bpb)作为反馈信号,但Skill执行效果的好坏往往难以量化。这需要精心设计评分标准,或者依赖另一个Agent进行主观但一致的评判。
进化方向存在“跑偏”的风险。正如Karpathy所提醒的,需要防范“奖励黑客”行为——Agent可能会找到一些投机取巧的方式来提高评分,而非从根本上解决问题。
安全边界需要人工设定。Autoresearch的核心是“无限制地修改代码”,这在Skill场景下风险更高。必须建立明确的沙箱运行机制,并在关键节点设置人工审核的关卡。
结语
回顾来看,Karpathy的autoresearch之所以能引起轰动,并非因其技术复杂度,而是它清晰地展示了一个简单而强大的原则:赋予Agent自主试错、评估与迭代的能力,其价值将呈指数级放大。
将这套逻辑应用于OpenClaw和Claude Code的Skill系统,本质上是在构建一种“元能力”——让AI学会如何更高效、更智能地协助人类。
这或许还不是通用人工智能(AGI),但它很可能是迈向更实用、更自主AI系统的一个重要台阶。用Karpathy的话来说,“所有前沿的实验室最终都会走上这条路。这才是终极的挑战。”
如果你也在使用OpenClaw或Claude Code,不妨审视一下自己的工作流:其中有哪些重复出现的错误是可以被自动记录和修复的?又有哪些Skill是具备持续优化潜力的?
下一次效率的飞跃,或许就隐藏在这些看似微小的、持续的改进循环之中。
https://github.com/karpathy/autoresearch
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与
就在人们还在为ChatGPT Images 2 0的惊艳表现而惊叹时,谷歌DeepMind的一篇重磅论文,为AI视觉领域投下了一枚“深水冲击波”。这篇题为《Image Generators are Generalist Vision Learners》的研究,系统性地证实了一个许多研究者心中早有预感
PPIO全面支持DeepSeek-V4预览版 1M上下文即刻体验
今天,AI开源领域迎来重磅进展:备受瞩目的DeepSeek-V4预览版正式发布并全面开源。本次发布同步推出两个版本——追求顶级性能的DeepSeek-V4-Pro与侧重效率性价比的DeepSeek-V4-Flash,为不同应用场景的开发者提供了清晰选择。值得注意的是,中国全栈式AI云服务商PPIO已
Claude强制实名认证引争议 验证是否为了更精准封号
梦晨 发自 凹非寺量子位 | 公众号 QbitAI 正用AI惬意地处理工作,突然屏幕上弹出一条提示:请完成实名认证。 Claude的新规一上线,用户社区立刻炸开了锅。 这可不是办理银&行业务,也不是过海关安检。一个日常对话的AI工具,竟然要查验你的身份证了。 要求还格外严格:必须手持身份证原件,对着
京东发布行业首个具身智能数据平台 构建超级供应链基础设施
继一个月前宣布将建成全球最大具身数据采集中心、助力万亿机器人产业生态后,京东在具身智能领域再有重磅进展。4月16日,在京东具身智能生态发布会上,京东全球首次推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施体系,自研的超高清采集终端JoyEgoCam、具身大模型JoyAI-RA以及具
国产多模态医疗AI实现顶尖医学图像分割性能无需调整模型架构
这项名为IBISAgent的突破性生物医学视觉推理框架,成功入选CVPR 2026!它重新定义了医学图像分割的范式。 人类专家在标注医学图像时,从未采用过“一次看诊、一键生成”的简单方式。 他们的工作流程是先全局观察、初步定位可疑区域,随后利用分割工具反复进行正向与负向点击,并根据每一步生成的掩膜形
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

