当前位置: 首页
AI资讯
Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭

Karpathy Autoresearch 项目遭Claude与OpenClaw抄袭

热心网友 时间:2026-05-20
转载

Karpathy的autoresearch项目之所以能引发广泛关注,其核心魅力并不在于技术上的复杂,而在于它揭示了一个朴素却深刻的道理:当一个智能体(Agent)能够自主地进行试错、评估与迭代时,它所创造的价值将远远超越单次任务的执行。

初次接触这个项目时,很容易产生一种“这不就是个自动跑实验的脚本吗?”的疑问。然而,深入探究后便会发现,它实际上触及了当前AI Agent发展的一个关键瓶颈:许多Agent并非能力不足,而是缺乏从过往错误中持续学习与进化的机制。这不禁让人联想到在使用OpenClaw或Claude Code时的常见痛点——它们能出色地完成单次指令,但每次遇到相似问题,都仿佛一张白纸,无法记住上一次的教训或优化成果。

Autoresearch的核心洞察

Karpathy在3月初开源的autoresearch,本质上构建了一个极其精简的“AI研究循环”框架。整个项目仅用630行Python代码实现,却驱动Claude Code在两天内自主完成了700次实验,并在他本人已优化数月的代码基础上,进一步将效率提升了11%。

图片图片

其运行机制清晰明了:Agent读取代码→提出改进假设→运行限定时间的实验→评估结果→保留成功方案→进入下一轮循环。

但这里的关键洞察在于,它并非传统的超参数调优,而是开放式的代码修改。Agent被允许改动代码的任何部分,无论是网络架构、注意力机制还是分词器。其搜索空间是“大语言模型(LLM)所能构想的一切”,这使其与传统的自动化机器学习(AutoML)工具产生了本质区别。

Shopify的首席执行官Tobi Lutke利用这一框架,在一夜之间跑了37个实验,并获得了19%的性能提升。这个案例有力地印证了Karpathy的观点:任何拥有可评估指标的问题,理论上都可以被“autoresearch化”。

当这个思路遇到OpenClaw的Skill系统

这自然引出了一个联想:OpenClaw的Skill(技能)机制。目前,OpenClaw社区已经存在像self-improving-agent这样的Skill,它通过将错误、学习点和功能请求记录到.learnings/目录来实现一定程度的持续改进。

然而,现有的自我改进Skill存在一个明显的局限:它是被动的。只有当用户明确指示“记住这个错误”,或者Agent自身检测到失败时,才会触发记录行为。它缺乏autoresearch那种主动的“提出假设-执行验证-迭代优化”的完整循环。

一个更激进的设想是,将autoresearch的循环机制与OpenClaw的Skill系统相结合。

具体而言:

  • Skill作为可进化单元:每个Skill不再仅仅是静态的提示词(prompt)文件,而是一个可以被Agent读取、分析、修改并测试的“实验对象”。
  • 自动评分机制:每次Skill执行后,由另一个轻量级Agent(例如Claude Haiku)担任评估器,从正确性、完整性、边界情况处理等多个维度进行打分。
  • 进化触发器:当某个Skill的平均评分低于预设阈值时,自动进入修复与优化循环;当评分稳定高于某个阈值并通过多次测试后,则将其“结晶”为稳定版本。
  • 跨会话记忆:利用OpenClaw的工作区文件(如SOUL.md、AGENTS.md、TOOLS.md)作为长期记忆的载体,确保进化过程不被会话中断所影响。

事实上,GitHub上已有名为singularity-claude的项目在进行类似的探索。它实现了Skill的创建、评分、修复与结晶的完整闭环,使得Skill能够通过递归式的自我改进不断进化。

Claude Code的Memory 2.0提供了基础设施

要让上述设想真正落地,Claude Code近期的更新提供了关键的基础设施支持。

Anthropic在3月发布的Memory 2.0与Agentic Workflow升级,为Claude Code带来了几项核心能力:

  • /loop命令:支持类似cron的调度任务,可以设置循环执行的工作流。
  • 子Agent编排:能够将复杂问题分解为研究、规划、验证、实现、审查等多个阶段,并由不同的子Agent协同处理。
  • 持久化记忆:基于文件的跨会话状态管理,确保了工作上下文和进度的连续性。

更重要的是,Anthropic的内部研究显示,Claude Code的自主性正在快速提升。从2025年8月到12月,用户执行最复杂任务的成功率翻了一番,同时每个会话所需的人工干预次数从5.4次下降到了3.3次。

这清晰地表明,用户正在逐渐学会如何为Agent“放权”——而这恰恰是Skill实现自主进化的前提条件。

一个具体的实现思路

基于以上观察,可以勾勒出一个“面向Skill的Autoresearch”最小可行方案:

核心循环(The Karpathy Loop for Skills):

读取当前skill和最近的使用记录
识别失败模式或改进机会
提出skill修改方案(prompt调整、示例补充、边界处理)
在下一次真实任务中测试
根据结果保留或回滚
重复

存储结构:

~/.openclaw/workspace/
├── skills/
│   └── {skill-name}/
│       ├── SKILL.md          # 当前版本
│       ├── versions/         # 历史版本
│       ├── scores.json       # 评分记录
│       └── telemetry/        # 执行日志
└── .learnings/
    └── skill-evolution.md    # 进化摘要

评分维度(参考singularity-claude的设计):

  • 正确性:是否准确达成了预设目标?
  • 完整性:是否处理了任务要求中的所有方面?
  • 边界情况:对异常或非预期输入的处理是否稳健?
  • 效率:提供的解决方案是否直接且简洁?
  • 可复用性:其输出能否被后续的步骤或任务方便地利用?

可以设定,当Skill的平均评分低于50分时触发自动修复流程,而当评分高于90分且通过至少5次不同场景的测试后,则将其“结晶”为稳定版本,锁定不再轻易改动。

为什么这很重要?

Karpathy曾阐述,autoresearch的目标是“让Agent能够无限期地自主取得最快的研究进展,无需人类参与”。将这套机制应用到Skill层面,意味着:

首先,Skill将从一个静态的配置项,转变为一个“活”的知识体。它们能够随着使用频次和场景的丰富,不断适应使用者个人的工作习惯、项目规范以及特定的技术栈偏好。

其次,个人的知识与经验得以沉淀为可复用的“组织记忆”。一位开发者优化后的Skill,可以通过Git等版本工具在团队内部共享,甚至通过像ClawdHub这样的社区平台分发给更广泛的用户。

最后,AI Agent终于能够从错误中进行真正有效的学习。Letta的研究表明,如果只是简单地将错误历史堆砌在提示词中,Agent的表现反而可能下降。但若能像autoresearch那样,将经验转化为结构化的Skill改进,效果则能提升36.8%。

局限与边界

当然,这一思路也存在明显的挑战与限制。

最核心的难点在于评估指标的设计。机器学习训练有明确的验证集损失(如val_bpb)作为反馈信号,但Skill执行效果的好坏往往难以量化。这需要精心设计评分标准,或者依赖另一个Agent进行主观但一致的评判。

进化方向存在“跑偏”的风险。正如Karpathy所提醒的,需要防范“奖励黑客”行为——Agent可能会找到一些投机取巧的方式来提高评分,而非从根本上解决问题。

安全边界需要人工设定。Autoresearch的核心是“无限制地修改代码”,这在Skill场景下风险更高。必须建立明确的沙箱运行机制,并在关键节点设置人工审核的关卡。

结语

回顾来看,Karpathy的autoresearch之所以能引起轰动,并非因其技术复杂度,而是它清晰地展示了一个简单而强大的原则:赋予Agent自主试错、评估与迭代的能力,其价值将呈指数级放大。

将这套逻辑应用于OpenClaw和Claude Code的Skill系统,本质上是在构建一种“元能力”——让AI学会如何更高效、更智能地协助人类。

这或许还不是通用人工智能(AGI),但它很可能是迈向更实用、更自主AI系统的一个重要台阶。用Karpathy的话来说,“所有前沿的实验室最终都会走上这条路。这才是终极的挑战。”

如果你也在使用OpenClaw或Claude Code,不妨审视一下自己的工作流:其中有哪些重复出现的错误是可以被自动记录和修复的?又有哪些Skill是具备持续优化潜力的?

下一次效率的飞跃,或许就隐藏在这些看似微小的、持续的改进循环之中。

https://github.com/karpathy/autoresearch
来源:https://www.51cto.com/article/840031.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

就在人们还在为ChatGPT Images 2 0的惊艳表现而惊叹时,谷歌DeepMind的一篇重磅论文,为AI视觉领域投下了一枚“深水冲击波”。这篇题为《Image Generators are Generalist Vision Learners》的研究,系统性地证实了一个许多研究者心中早有预感

时间:2026-05-20 15:50
PPIO全面支持DeepSeek-V4预览版 1M上下文即刻体验

PPIO全面支持DeepSeek-V4预览版 1M上下文即刻体验

今天,AI开源领域迎来重磅进展:备受瞩目的DeepSeek-V4预览版正式发布并全面开源。本次发布同步推出两个版本——追求顶级性能的DeepSeek-V4-Pro与侧重效率性价比的DeepSeek-V4-Flash,为不同应用场景的开发者提供了清晰选择。值得注意的是,中国全栈式AI云服务商PPIO已

时间:2026-05-20 15:50
Claude强制实名认证引争议 验证是否为了更精准封号

Claude强制实名认证引争议 验证是否为了更精准封号

梦晨 发自 凹非寺量子位 | 公众号 QbitAI 正用AI惬意地处理工作,突然屏幕上弹出一条提示:请完成实名认证。 Claude的新规一上线,用户社区立刻炸开了锅。 这可不是办理银&行业务,也不是过海关安检。一个日常对话的AI工具,竟然要查验你的身份证了。 要求还格外严格:必须手持身份证原件,对着

时间:2026-05-20 15:49
京东发布行业首个具身智能数据平台 构建超级供应链基础设施

京东发布行业首个具身智能数据平台 构建超级供应链基础设施

继一个月前宣布将建成全球最大具身数据采集中心、助力万亿机器人产业生态后,京东在具身智能领域再有重磅进展。4月16日,在京东具身智能生态发布会上,京东全球首次推出覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施体系,自研的超高清采集终端JoyEgoCam、具身大模型JoyAI-RA以及具

时间:2026-05-20 15:49
国产多模态医疗AI实现顶尖医学图像分割性能无需调整模型架构

国产多模态医疗AI实现顶尖医学图像分割性能无需调整模型架构

这项名为IBISAgent的突破性生物医学视觉推理框架,成功入选CVPR 2026!它重新定义了医学图像分割的范式。 人类专家在标注医学图像时,从未采用过“一次看诊、一键生成”的简单方式。 他们的工作流程是先全局观察、初步定位可疑区域,随后利用分割工具反复进行正向与负向点击,并根据每一步生成的掩膜形

时间:2026-05-20 15:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程