DeepSeek开发自动研究技能实现论文撰写仅需人类思考两小时

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

DeepSeek开发自动研究技能实现论文撰写仅需人类思考两小时

热心网友时间：2026-05-28

转载

DeepSeek研究员陈德里最近在个人博客上分享了一篇研究综述论文，而这篇论文的诞生过程本身，就堪称一个绝佳的研究案例。

用他自己的话说，这篇论文的创作分工是：

1%是我写的，99%是Agent写的。

他动用了自己开发的技能DeliAutoResearch，由DeepSeek-V4-Pro负责研究和写作，GPT-Image2负责绘图。整个项目迭代了6个版本，总耗时6天，进行了大约108轮Agent调用，消耗了64.8万token，最终生成了2234行LaTeX代码。

成果是一篇包含103个已验证参考文献、长达46页（538KB）的论文，其中包含了7个图表和4个表格。

这篇论文探讨的核心，是自动研究智能体的自主度分级体系。它系统分析了四大主流架构模式，并从可扩展性、成本、可靠性等多个维度进行了对比。不仅如此，论文还基于一个六维特征矩阵，深入剖析了17个主流系统，并最终提出了六大开放性问题及其对应的未来研究方向。

陈德里对此感触颇深。他认为，代码智能体的出现，正在导致计算机科学领域的论文数量呈“疯狂”增长态势。过去需要至少一个月才能完成的工作，现在，他作为人类的“总CPU时间”投入不到2小时，其余均由智能体代劳。

当然，他也附上了一句免责声明：文中观点仅代表个人，与任何组织无关。

从L1到L5：研究智能体的自主进阶之路

论文提出的L1-L5分级体系，清晰地勾勒出了研究智能体的能力演进路径：

L1基础自动补全：以早期的GitHub Copilot为代表，核心能力是预测并补全下一行代码。
L2任务执行：以配备了各种工具的ChatGPT/Claude等聊天机器人为典型。它们能够分解任务，但每一步执行都需要人类批准。
L3多步骤执行：这是当前的主流形态，例如Claude Code、Cursor Agent。它们能够自主执行10到100个步骤，仅在关键节点请求人类审核。
L4受限领域全自主：人类仅需提供研究目标和评估最终成果。智能体可以独立完成多步实验、代码编写和论文撰写，但尚无法自主选择研究问题。
L5完全自主研究议程：这是理想的未来状态，智能体可以自主选题、分配资源、进行长期知识积累和跨领域持续研究。目前尚未实现，核心瓶颈在于持续知识积累、可靠自我评估和架构的规模化。

目前，行业前沿初步触及L4水平，L5仍是一个有待攻克的设想。论文指出了一个关键洞察：真正的瓶颈或许并非模型本身的能力，而在于「持续知识积累」和「可靠自我评估」这两大系统级挑战。

四大架构模式：如何为任务选择最佳“引擎”

除了按自主性分级，论文还从架构角度归纳了四种主流模式。

单智能体循环

以早期的ReAct、Reflexion、LATS、思维树等研究为代表。依靠单一模型进行“推理-行动-观察”的循环迭代，优点是简单高效，但在处理复杂任务时能力有限。

多智能体协作

以CAMEL、AutoGen、MetaGPT等早期框架为典型。通过多个智能体分工协作、多视角交叉验证来纠错，能力更强，但成本较高，且智能体间的沟通容易陷入混乱。

分层调度

Claude Code和Devin是这方面的代表。采用分层规划、任务分解的策略，特别适合长周期、高复杂度的研究任务。

工具增强执行

以SWE-Agent等系统为例。其核心是强大的工具集，如代码执行环境、网页浏览器、API/数据库接口、多模态工具等。智能体-计算机接口（ACI）的设计直接决定了其性能上限。

这四种模式并无绝对的优劣之分，关键在于针对特定任务选择最合适的工具：简单短期任务可选低成本、易实现的单智能体循环；需要多视角纠错的复杂分工场景，多智能体协作更合适；面对长周期、高复杂度的研究，分层调度（强规划、易监管）是优选；而当任务高度依赖外部工具和环境交互时，工具增强执行模式则能最大程度扩展能力边界。

不过在实际应用中，混合架构正成为趋势，旨在结合多种模式的优势。