上海交大团队利用Claude Code实现自动化科研两篇论文获AI顶会接收

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

上海交大团队利用Claude Code实现自动化科研两篇论文获AI顶会接收

热心网友时间：2026-05-07

转载

上海交大团队开源ARIS框架，以提升自主科研AI的可信度。其三层架构通过“执行-审查-修正”循环覆盖科研全流程，并构建审计链核查研究过程与结果，确保结论科学可靠。已有采用该框架完成的论文被会议接收。

如今，自主科研AI Agent已能完整实现从灵感到论文的全流程自动化。或许一觉醒来，AI助手就已完成了复杂的实验，甚至撰写出一篇结构完整的学术论文。

这听起来前景广阔，但一个根本性问题也随之凸显：我们如何确信，AI Agent在最终结论中没有悄然植入“虚假信息”？

当前，这类自动化科研系统普遍面临两大核心挑战。首先，生成与审查任务常由同一系列模型完成，导致许多系统性偏差难以在内部被有效识别与纠正。其次，当Agent在近乎无人监督的状态下连续运行数日，其最终产出的研究结论，往往难以验证是否得到了充分、可靠的证据支撑。

针对这些科研可信度难题，上海交通大学的研究团队提出了一个名为“在睡眠中自动研究”（Auto-Research-in-sleep，简称 ARIS）的开源框架。其核心重点，并非单纯追求更快的论文产出速度，而是致力于让自动化产出的论文更经得起严格的科学检验。

值得关注的是，在开源社区的实际应用案例中，已有研究人员利用ARIS框架成功完成了从课题构思到论文成稿的全流程工作，并且相关成果已被学术会议接收。

ARIS：一套三层架构的科研质量保障系统

根据其研究论文描述，ARIS的系统拓扑结构清晰分为三层，共同构建了一个从任务执行到质量保障的完整闭环。

第一层是执行层，它提供了最基础的能力单元，由一系列可复用的、通过Markdown定义的技能模块，以及一个持久化的研究Wiki知识库构成。

第二层是编排层，负责将分散的技能模块串联成完整的科研流水线。它定义了五个端到端的工作流，全面覆盖了从创意发现、实验桥接、自动审查循环、论文撰写到回复审稿意见的完整研究周期。

第三层是保障层，这也是ARIS最具创新性的部分。它专门负责对研究过程与产出进行审计与核查，包括一个三阶段的证据-声明审计级联、一个五轮次的科学写作编辑流水线，以及数学证明检查器、视觉PDF审查和引用审计等关键模块。

图｜ARIS 系统拓扑。6组组件通过带标签的关系相互交互（见左侧边栏）：Meta-Optimization 外循环对 Assurance 层进行门控，后者负责检查 Artifacts；Artifacts 由 Workflows 生成和消费，而 Workflows 负责编排 Skills；Skills 则调用 MCP 与 Tool Bridges，以访问外部模型和数据。右侧的 executor 和 reviewer 使用来自模型系列。ARIS-Code CLI 将所有组件打包为一个独立的二进制程序。

核心机制：引入跨模型家族的对抗式协作

研究团队深刻认识到，依赖单一AI智能体难以可靠地完成长周期、高复杂度的科研任务。因此，他们设计了一套跨模型家族的“执行-审查-修正”循环机制。

在该机制中，执行者（默认推荐使用Claude系列模型）负责生成代码、实验方案或论文草稿；而审查者（默认推荐使用GPT-4等系列模型）则依据预定义的严格评分标准进行结构化评估，并返回具体的修改建议。执行者根据建议进行修订后再次提交，如此循环往复，直至审查评分达到预设的质量标准。

图｜跨模型对抗式协作通过“执行者生成”与“外部模型批评、可执行的修订请求以及收敛性检查”交替进行。审查者的访问权限范围可以从仅查看文档，到访问整个代码仓库。

覆盖研究全周期的五条核心工作流

基于上述协作机制，ARIS精心组织了五条清晰明确的工作流：

工作流1：创意发现。负责进行深入的文献调研、评估研究想法的新颖性，并制定初步的实验计划。

工作流2：实验桥接。将实验计划转化为可执行的代码，调度计算资源运行实验，并回收和分析实验结果。

工作流3：自动审查循环。将论文草稿提交给跨模型审查者进行多轮结构化评分，提取具体行动项，必要时触发GPU实验以获取新证据，修订相关章节，并检查修改是否达到收敛标准。

工作流4：论文撰写。这是一个包含多个步骤的精细化流程，依次完成论文大纲规划、图表生成、LaTeX撰写与五轮科学编辑。对于理论性强的论文，还会调用专门的证明检查器。随后进行结论审计、文档编译，并通过两轮基于GPT-4的视觉审查与自动修订进入改进循环。

工作流5：投稿后阶段。系统会智能解析审稿意见，拆分关键问题，规划回应策略，起草回复稿，并通过三道分别用于防止捏造数据、过度承诺和遗漏回应的安全检查，最后进行压力测试并定稿。

图｜ARIS 工作流库。上：5条工作流及其产物契约的端到端组合，按研究的4个阶段分组，分别为发现、实验、成稿和投稿后阶段；虚线表示审稿人反馈、由 GPU 触发的证据收集，以及 Wiki 记忆。下：正文未单独展开的几条工作流的压缩内部结构，包括 W1创意发现（带有审稿人门控的迭代细化）、W1.5 实验桥接（带有代码审查和自动调试回退）以及 W4 回复审稿意见（带有安全门和压力测试）。

构建“自证”安全网：严谨的三层审计链

ARIS最具特色的设计在于其严谨的三层审计链，为AI的科研输出增加了一道强大的“自证”安全网。

第一步，实验审计。重点审查实验本身的可靠性，系统排查诸如伪标签、幽灵结果、未执行的评估指标、超出数据支持范围的结论外推等常见问题。

第二步，结果到主张的映射审计。将论文中的每一条候选结论与已有的实验证据逐一比对，明确判定其属于“有充分支持”、“部分支持”还是“不成立”。

第三步，论文主张审计。由一位不带任何上下文的“全新”审查者，直接核对论文正文中的原始结果描述、实验设置细节以及图表中的数据是否完全一致，确保最终表述的准确性。

在这条核心审计链之外，系统还设置了多重额外保障。例如，初稿完成后会经历五轮科学编辑

图｜证据到主张审计级联。阶段 1（experiment-audit，实验审计）：审查者对评估脚本和结果文件进行审计，以检查完整性失效模式。阶段 2（result-to-claim，从结果到主张）：将结果映射为明确的主张判定（支持、部分支持、被证伪）；凡存在审计失败的问题，相关主张都会被降级处理。阶段 3（paper-claim-audit，论文主张审计）：一名不带任何上下文信息的全新审查者，将稿件中的每一条定量主张与主张台账及原始结果文件逐一比对。

从“反复试错”到“螺旋式学习”：研究Wiki的核心作用

持久化的研究Wiki是ARIS另一个关键组成部分。它并非简单的笔记，而是一个项目级的记忆系统，持续记录相关的论文、研究想法、实验过程和阶段性结论，并智能标记它们之间的关联。

这套机制的价值显而易见。在没有它的情况下，同一个被证明行不通的想法，可能会在不同轮次的研究中被AI Agent反复提出，陷入低效的循环。而有了Wiki，失败的探索方向会被及时记录并排除，已经验证的结论则能成为下一轮研究的坚实起点，从而将一次性的、可能重复的研究过程，转变为可积累、可迭代的螺旋式学习。

图｜为什么 wiki 很重要。没有 wiki 时（左），每次会话都从一张白纸开始；同一个失败的想法 A 可能会被无限次重复尝试，因为系统无法记住先前的结果。有了 wiki 之后（右），第 1 次会话中的失败会被记录下来；第 2 次会话在构思阶段会读取 wiki，跳过 A，转而成功尝试 B；第 3 次会话则在 B 的基础上继续推进，并探索 C/D。失败的想法会变成“禁试清单”，而已验证的论断则会成为下一轮构思的基础，从而把一次性的研究过程转变为螺旋式学习。

实际应用效果与当前局限

那么，这套系统的实际表现如何？

目前，ARIS的技能库已从最初的21个核心技能扩展到65个以上，覆盖了机器人学、硬件设计、数学证明乃至基金申请等多个研究方向。系统已在Claude Code、Codex CLI和Cursor等开发平台上完成测试，审查端可灵活接入GPT、Gemini、DeepSeek等多种主流大模型。

研究团队提供了一次真实的隔夜运行记录。在约8小时内，ARIS完成了4轮“审查-修改”循环，内部审查分数从5.0/10提升到了7.5/10。过程中系统自动触发了20多次GPU实验，并主动删除了一些证据不足的结论。这表明，ARIS至少已经能够将“审查驱动修改”从一个概念，落地为可执行、可观测的自动化流程。

不过，团队对结果的表述非常谨慎。他们在论文中明确指出，这些只是观察性证据，不能据此做出严格的因果推断。也就是说，这次运行成功演示了“结论裁剪”和“审查驱动修改”的可行性，但尚不足以证明跨模型审查一定优于同模型审查，也无法断定当前的双审查者结构已是最优解。

现有不足与未来发展方向

缺乏受控的对比评估是当前最主要的局限。论文中报告的所有结果均为观察性记录。研究团队也承认，模型选择、任务难度、运行强度等多种变量都会影响结果，因此无法将观察到的效果在因果层面完全归功于ARIS框架本身。

另一方面，必须清醒认识到，ARIS并不能保证任何输出的绝对正确性、新颖性或科学合理性。三层审计链可以拦截许多常见错误，但无法保证发现所有潜在的失真或逻辑谬误。如果审查者自身存在某种方法论偏好，系统最终优化的方向，可能是迎合审查者的“口味”，而非提升真正的科学质量。论文也强调，最终的研究方向抉择、关键证据的核验以及论文的提交决定，仍然需要人类研究者的深度参与和最终负责。在安全层面，将整个代码仓库发送给外部模型进行审查也存在潜在风险，本地化的审查路由方案仍在规划中。

当然，ARIS的价值并不仅限于论文写作。其核心机制——独立的审查者、“证据到结论”的审计流程以及可追溯的台账记录——理论上可以被置于模型输出与后续训练信号之间，作为一层显式的监督机制，服务于更广泛的AI自我改进系统。

归根结底，ARIS真正试图推动的，并非自动化科研的“速度”，而是其“可信度”。它或许还没有给出所有问题的标准答案，但至少将一个长期被“效率”光环所掩盖的核心问题——如何确保AI科研产出的真实与可靠——清晰地摆到了台面上。对于走向深水区的自动化科研而言，这个问题的重要性，可能远比“再快一点”更为根本。

来源:https://36kr.com/p/3799050979040518
苹果

上一篇：马斯克脑机接口新进展 5轴联动植入技术估值90亿美元

下一篇：三星遭遇史上最长18天罢工或将损失12%年度利润

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章
更多

ZCode被外媒盯上，中国模型公司开始抢AI编程入口

编辑 | 王凤枝ZCode最近突然被海外媒体 "发现 "了。7月2日，VentureBeat把ZCode写成Z ai进入AI编程工具市场的一步；Business Insider则抓住了更容易传播的一点：这是一款价格更低的AI编程工具。这个框架容易带出两个误会：ZCode像是刚出现的新产品，也像是又一个 "

时间：2026-07-14 17:28
苹果

理想i6上半年交付破12万辆成中大型纯电SUV销量冠军

理想i6上半年交付超12万辆，夺得中大型纯电SUV销量冠军。该车起售价24 98万元，车长近5米轴距3米，标配全铝悬架、双腔空气悬架及ADMax智驾系统，CLTC最高续航720公里，支持5C超快充。

时间：2026-07-14 13:55
苹果

年Arm架构将占头部云服务商半数算力

2025年头部超大规模云服务商算力中近50%基于Arm架构。全球十大云商积极开发Arm芯片，能效提升高达60%。NVIDIA等定制AI芯片采用ArmNeoverse平台，软件生态加速迁移。

时间：2026-07-14 13:55
苹果

vivo Arm联合实验室成立赋能芯片技术创新

vivo与Arm联合实验室正式揭牌，双方基于真实应用场景分析性能与功耗瓶颈，共同优化调校方案。部分关键成果将应用于十月发布的vivoX200系列旗舰手机，旨在回归用户需求，提升芯片技术体验。

时间：2026-07-14 13:54
苹果

新飞猫U9随身WiFi限时低价抢先体验

飞猫U9随身WiFi采用WiFi6技术，网络速度提升25%，支持低延迟与高稳定。一键可控WiFi开关提升安全性并降低功耗。三网融合自动切换最优网络，36V防浪涌保障车载稳定。设备仅32克，支持10台设备连接，散热设计持久耐用。

时间：2026-07-14 13:54
苹果

热门专题
更多

 刀塔传奇破解版无限钻石下载大全

 洛克王国正式正版手游下载安装大全

 思美人手游下载专区

 好玩的阿拉德之怒游戏下载合集

 不思议迷宫手游下载合集

 百宝袋汉化组游戏最新合集

 jsk游戏合集30款游戏大全

 宾果消消消原版下载大全

热门数据榜

1
格瑞普电池与玄智科技达成战略合作共筑数智竞技联盟
2
华秋全志联合发起开源硬件设计与制造大赛
3
萤石首位虚拟技术官兼品牌代言人星石Astro正式发布
4
摩尔线程全新多功能服务器GPU MTT S3000
5
磁吸连接器从起源到现代发展历程全解析
6
OpenAI首席产品官最新访谈解析第一性原理重构
7
一文掌握机器学习十种常用距离度量方法详解
8
DeepSeek API采购成本与本地部署费用对比分析完整版
9
旭日X3派AI推理YOLOv5性能测试
10
ClackyAI云端Agent开启编程新纪元

1
格瑞普电池与玄智科技达成战略合作共筑数智竞技联盟
2
华秋全志联合发起开源硬件设计与制造大赛
3
萤石首位虚拟技术官兼品牌代言人星石Astro正式发布
4
摩尔线程全新多功能服务器GPU MTT S3000
5
磁吸连接器从起源到现代发展历程全解析
6
OpenAI首席产品官最新访谈解析第一性原理重构
7
一文掌握机器学习十种常用距离度量方法详解
8
DeepSeek API采购成本与本地部署费用对比分析完整版
9
旭日X3派AI推理YOLOv5性能测试
10
ClackyAI云端Agent开启编程新纪元

1
格瑞普电池与玄智科技达成战略合作共筑数智竞技联盟
2
华秋全志联合发起开源硬件设计与制造大赛
3
萤石首位虚拟技术官兼品牌代言人星石Astro正式发布
4
摩尔线程全新多功能服务器GPU MTT S3000
5
磁吸连接器从起源到现代发展历程全解析
6
OpenAI首席产品官最新访谈解析第一性原理重构
7
一文掌握机器学习十种常用距离度量方法详解
8
DeepSeek API采购成本与本地部署费用对比分析完整版
9
旭日X3派AI推理YOLOv5性能测试
10
ClackyAI云端Agent开启编程新纪元

相关攻略
更多

2026-07-14 17:28
ZCode被外媒盯上，中国模型公司开始抢AI编程入口

2026-07-14 13:55
理想i6上半年交付破12万辆成中大型纯电SUV销量冠军

2026-07-14 13:55
年Arm架构将占头部云服务商半数算力

2026-07-14 13:54
vivo Arm联合实验室成立赋能芯片技术创新

2026-07-14 13:54
新飞猫U9随身WiFi限时低价抢先体验

2026-07-14 13:54
三星Galaxy S25 Ultra性能将迎来显著飞跃提升

2026-07-14 13:54
英特尔至强6性能核处理器重磅来袭：更高算力能效与更强内存I/O

2026-07-14 13:54
荣耀Magic V3海外发布，百年IFA展会亮相

热门教程
更多

游戏攻略

安卓教程

苹果教程

电脑教程

太吾绘卷天幕心帷隐藏技巧全攻略发布于 2026-07-14

全民萌兽激活码在哪领取发布于 2026-07-14

遗忘之海金果子获取方法与实用技巧发布于 2026-07-14

贝塞斯达工会抗议Xbox裁员团结争取员工权益发布于 2026-07-14

早期升星西游卡牌手游大全 2026高人气西游手游推荐发布于 2026-07-14

幻兽帕鲁1.0正式版Steam同时在线人数突破85万大量玩家回归发布于 2026-07-14

PS6散热系统确认弃用液金采用全新设计发布于 2026-07-14

火焰纹章万缕千丝素材复用引发玩家吐槽发布于 2026-07-14

麒麟系统网络唤醒功能设置方法发布于 2026-07-14

Mac菜单栏如何查看当前网桥连接的详细步骤发布于 2026-07-14

电脑开机Missing operating system黑屏修复步骤发布于 2026-07-14

Mac电脑屏幕缩放比例设置教程发布于 2026-07-14

AI写作润色助手手机支持哪些语言？发布于 2026-07-14

AI写作润色助手手机需要联网吗？发布于 2026-07-14

AI写作润色助手手机支持语音输入吗？发布于 2026-07-14

AI写作润色助手手机兼容iOS吗？发布于 2026-07-14

热门话题
更多

AI写作工具推荐_AI写作教程_论文文案内容创作指南

AI音乐生成教程_AI作曲工具推荐_歌曲创作实用指南

AI搜索工具推荐_AI搜索使用技巧_智能搜索引擎指南

AI PPT制作教程_AI生成PPT工具推荐_演示文稿效率指南

AI语音克隆教程_声音克隆工具推荐_语音合成实用指南

文生视频工具推荐_AI视频生成教程_提示词与剪辑指南

AI编程工具推荐_AI代码生成教程_程序员智能开发指南

AI数字人制作教程_数字人生成工具推荐_虚拟主播应用指南

AI图片生成工具推荐_AI绘图教程_文生图模型使用指南