DeepSeek研究员用AI撰写论文 六天完成45页研究
昨晚,AI研究圈被一篇特别的论文刷屏了。DeepSeek资深研究员陈德里(Deli Chen)发布了他与智能体“合著”的45页综述,而其中99%的内容,都由他搭建的自主研究智能体“DeliAutoResearch”完成。
这篇题为《从Copilots到同事:自主科研智能体综述》的论文,作者栏赫然写着:陈德里、DeepSeek-V4-Pro、GPT-Image2。这或许标志着,AI在科研协作中的角色,正从“副驾驶”迈向“同事”。

陈德里特意附上了一份“免责声明”:这篇论文并非严谨的学术论文,也不代表任何公司或组织的官方观点,纯粹是出于个人兴趣,并顺便测试一下他搭建的这套自动化研究系统。

整个创作过程堪称高效。论文共迭代了6个版本,从启动到完成仅耗时6天,而生成初稿更是只用了76分钟。期间,智能体累计运行了约108轮,消耗了64.8万个Token,生成了2234行LaTeX代码,最终产出了一份45页、包含7个图表和4个表格的PDF文件,大小538KB。陈德里本人也不禁感慨,同样的工作量在过去至少需要一个月,而这次他亲自投入的“CPU运转时长”还不到2小时。
作为DeepSeek-V1到V4系列模型以及DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE等架构的核心贡献者,陈德里的这次“实验”无疑具有风向标意义。这篇论文系统梳理了机器学习、软件工程、科学发现三大领域的105篇文献,旨在为自主研究智能体建立一个统一的分析框架,并得出了四项核心成果。

01.当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征
论文首先为“自主研究智能体”下了定义:这是一类能够在接收到高层研究目标后,独立执行“假设生成-实验设计-执行-分析-迭代优化”这一完整科学探究闭环的软件系统,整个过程仅需极少甚至无需人工干预。
为了清晰界定不同系统的能力,研究提出了一套五级自主能力分级体系(L1-L5)。这个体系主要基于两个维度来衡量:一是智能体能够独立决策的内容范围,二是它在无需人工审核的情况下能够持续自主运行的时间长度。

L1级:代码补全助手。 这一层的典型代表是GitHub Copilot等工具。智能体只能预测单个token或单行文本的后续内容,研究的方向、结构和正确性完全由人类主导。数据显示,这类工具能在受控编码任务中将效率提升30%-55%,但无法独立完成多步骤目标。
L2级:对话式AI助手。 以支持插件和工具调用的ChatGPT、Claude为代表。智能体能够将定义清晰的任务拆解为多个步骤并执行,但每一步都需要人工进行显式或隐式的审批。其能力包括网页搜索、代码执行和信息整合,但全程离不开人类的引导和中间结果的验证。
L3级:代码智能体。 到了这一层,智能体已经可以自主执行10到100个连续动作,只在预设的检查点或遇到不确定情况时才请求人工审核。它能自主查看代码仓库、编辑文件,不再需要人类对每个步骤点头。L3与L2的核心区别在于决策权的转移:智能体可以自主决定编辑哪个文件、如何修复测试失败,人类角色退居为“监督者”。
L4级:自主研究系统。 AI Scientist、Devin、SWE-Agent等系统是这一层级的代表。它们能够自主生成研究思路、撰写论文、运行实验、产出完整成果,甚至模拟自动化同行评审,全程无需人工干预。接收到一个研究目标后,它们可以独立运行数小时至数天,具备从故障中恢复、迭代优化策略的能力。人类只需要评估最终输出,无需监督执行过程。
L5级:完全自主的“科学家”。 这是自主能力的最高等级。智能体不仅能执行研究任务,还能自主选择有价值的研究问题、在多个项目间智能分配资源,并基于过往成果进行持续的知识迭代和突破。研究指出,目前尚无系统完全达到L5,但像能够自主生成难度递增学习课程的Voyager,以及能基于成功程序迭代发现新数学构造的FunSearch,已经展现出了L5的某些特征。

02.四大主流架构可适配不同层级系统
那么,不同层级的系统是如何构建的呢?论文归纳了四大主流架构模式:单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环(ReAct/Reflexion): 这是最简单、应用最广泛的基础架构。单个语言模型循环执行“观察→思考→行动→反馈”的闭环。别看它设计简单,却是绝大多数L3-L4级系统的核心骨架,并且在推理策略上有极大的优化和适配空间。
多智能体协作(MetaGPT/AutoGen): 当任务变得复杂时,单打独斗就显得力不从心了。多智能体系统将任务责任拆分给多个专业化的智能体,通过它们之间的通信与协作来共同完成目标。
分层编排(Supervisor-Worker): 任务复杂度进一步提升,扁平化的多智能体通信可能陷入混乱。分层架构引入了明确的管控关系:一个高层“监督者”智能体负责拆解总任务,并将子任务分配给专业的“执行者”智能体,同时监控进度并在必要时介入调整。
工具增强执行(CodeAct): 这可以说是自主研究智能体的“灵魂”。它将语言模型从一个被动的文本生成器,转变为能够与代码、实验设备、网络环境交互的主动参与者。正是这种与外部工具和环境的深度集成,极大地拓展了智能体的能力上限。

总的来说,不同层级的系统对架构有天然的选择倾向。L2级系统用简单的单智能体循环就能高效运行;L3级系统采用具备反思机制的Reflexion架构,能天然嵌入检查点,收益最大;L4级系统通常需要分层编排架构,搭配自主迭代优化,才能在长时间运行中保持稳定输出;而理论上未来的L5级系统,很可能需要具备动态自重组能力的图结构架构才能实现。
03.三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟
基于一套六维特征矩阵(自主等级、核心领域、架构模式、工具集成、评测方法、开源属性),论文对17款主流系统进行了深入分析,得出了几个关键结论。

结论一:代码智能体赛道最为成熟。 在所有被分析的系统维度中,代码智能体的综合表现最优。这得益于其拥有自动化的评测体系、成熟的工具环境(如编译器、测试框架)以及大规模、标准化的基准测试(如HumanEval、SWE-bench)支撑。
结论二:专用智能体全面超越通用智能体。 研究发现,通过收索应用范围,SWE-Agent、Coscientist、FunSearch等L4级系统实现了稳定输出。相反,像AutoGPT、BabyAGI这样旨在处理多样化任务的通用智能体,始终难以实现稳定的L4级运行。这似乎表明,在现阶段,“专才”比“通才”更可靠。
结论三:开源与闭源的性能差距正在迅速缩小。 分析显示,开源系统如OpenHands的表现已经非常接近Devin等知名的闭源系统,这意味着开源社区正在快速追赶。
关于如何评估这些智能体,论文指出了三个核心方向:采用多维度指标,联合评估创新性、正确性、效率和安全性,避免单一优化;开展长周期评测,追踪智能体在持续数周或数月的科研项目中的表现,而非孤立的单次任务;推动社群化评估,将领域专家的反馈循环嵌入评测流程,逐步建立行业共识标准。
最后,论文梳理出智能体系统面临的六大核心挑战:认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。

其中,认知死循环、原创性评测和安全问题尤为关键。认知死循环导致智能体无法识别自己已陷入困境,只会固执地重复失败策略;缺乏可靠的自动化指标来衡量科研成果的质量与原创性,使得智能体难以在闭环中实现自我改进;而随着能力提升,智能体的行动边界和潜在的伦理风险也日益凸显。
04.结语:双AI协作产出完整论文,智能体真变身科研同事了
陈德里的这次实验,不仅仅是一次技术演示。它让智能体实现了从研究想法到完整论文的“端到端”自主产出。仅投入2小时的人类高阶思考时间,通过双AI模型的协作,就能产出一篇结构完整的领域综述,这有力地证明了AI从“工具”进化为“科研同事”的可行性已不再是理论。
这次任务是一次长周期、多流程的复杂工程,而最终生成的论文逻辑清晰、没有偏离主题,这恰恰展现了当前先进智能体系统所具备的三项核心能力:超长文本的连贯处理、长流程任务的持续执行,以及贯穿始终的逻辑一致性。
在自主科研智能体这个前沿领域,陈德里不仅用一个有趣的实验展示了技术的潜力,更通过一篇详实的论文剖析了领域的现状与痛点。这种“知行合一”的尝试,或许为后续智能体如何更深入、更可靠地融入科研工作流,提供了一个新颖而有力的参考方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Red Hat技能包赋予AI智能体20年企业运维经验
RedHat发布专属AI技能库,基于检索增强生成技术与智能体结合,将二十年企业运维经验注入AI。智能体技能包封装任务理解、规划与防护规则,可在RHEL、OpenShift和Ansible上执行CVE查询、补丁建议等操作,受订阅与安全策略约束,实现受治理的超级用户目标。
谷歌AI摘要频现拼写错误 大模型固有硬伤遭曝光
这事儿说来也怪——能编写代码、解答复杂数学题的尖端AI,一到基础拼写这种幼儿园级别的问题上,反倒频频出错。谷歌最近升级的AI摘要功能(AI Overview)就因为一堆低级拼写错误,再次成为科技圈热议的笑柄。公开测试中,它不仅无法准确统计单词中的字母数量,甚至连自己的品牌名“Google”都拼写错误
夸克AI自动生成PPT演讲稿及每页备注
夸克AI提供四种自动生成PPT演讲稿与备注的路径:在编辑界面一键生成全部页备注、通过AI助手对话指令批量生成讲稿、从已导出的PPTX文件反向提取并生成备注、利用网页内容同步生成PPT与配套备注,覆盖不同工作场景。
如何实现私有代码库的许愿驱动开发体验
通过构建包含背景价值观、行为规范及偏好设置的万字提示词框架,使AI在私有代码库中实现理解架构哲学并主动协作,从被动执行转变为具备架构直觉的专业伙伴,恢复许愿式开发体验。
海螺AI Citypop创作指南:解决MiniMax无法生成特定城市曲风
生成特定城市曲风的Citypop音乐常因未将城市意象转化为声学参数而失败。通过MiniMaxM1Chat提取城市声景语义标签,在海螺AI中构建城市-节奏-音色三维绑定,启用Citypop专用微调权重,最后用剪映实现音画耦合,可精准还原城市霓虹质感。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

