DeepSeek开发自动研究技能实现论文撰写仅需人类思考两小时
DeepSeek研究员陈德里最近在个人博客上分享了一篇研究综述论文,而这篇论文的诞生过程本身,就堪称一个绝佳的研究案例。
用他自己的话说,这篇论文的创作分工是:
1%是我写的,99%是Agent写的。
他动用了自己开发的技能DeliAutoResearch,由DeepSeek-V4-Pro负责研究和写作,GPT-Image2负责绘图。整个项目迭代了6个版本,总耗时6天,进行了大约108轮Agent调用,消耗了64.8万token,最终生成了2234行LaTeX代码。
成果是一篇包含103个已验证参考文献、长达46页(538KB)的论文,其中包含了7个图表和4个表格。
这篇论文探讨的核心,是自动研究智能体的自主度分级体系。它系统分析了四大主流架构模式,并从可扩展性、成本、可靠性等多个维度进行了对比。不仅如此,论文还基于一个六维特征矩阵,深入剖析了17个主流系统,并最终提出了六大开放性问题及其对应的未来研究方向。
陈德里对此感触颇深。他认为,代码智能体的出现,正在导致计算机科学领域的论文数量呈“疯狂”增长态势。过去需要至少一个月才能完成的工作,现在,他作为人类的“总CPU时间”投入不到2小时,其余均由智能体代劳。
当然,他也附上了一句免责声明:文中观点仅代表个人,与任何组织无关。
从L1到L5:研究智能体的自主进阶之路
论文提出的L1-L5分级体系,清晰地勾勒出了研究智能体的能力演进路径:
- L1基础自动补全:以早期的GitHub Copilot为代表,核心能力是预测并补全下一行代码。
- L2任务执行:以配备了各种工具的ChatGPT/Claude等聊天机器人为典型。它们能够分解任务,但每一步执行都需要人类批准。
- L3多步骤执行:这是当前的主流形态,例如Claude Code、Cursor Agent。它们能够自主执行10到100个步骤,仅在关键节点请求人类审核。
- L4受限领域全自主:人类仅需提供研究目标和评估最终成果。智能体可以独立完成多步实验、代码编写和论文撰写,但尚无法自主选择研究问题。
- L5完全自主研究议程:这是理想的未来状态,智能体可以自主选题、分配资源、进行长期知识积累和跨领域持续研究。目前尚未实现,核心瓶颈在于持续知识积累、可靠自我评估和架构的规模化。
目前,行业前沿初步触及L4水平,L5仍是一个有待攻克的设想。论文指出了一个关键洞察:真正的瓶颈或许并非模型本身的能力,而在于「持续知识积累」和「可靠自我评估」这两大系统级挑战。
四大架构模式:如何为任务选择最佳“引擎”
除了按自主性分级,论文还从架构角度归纳了四种主流模式。
- 单智能体循环
以早期的ReAct、Reflexion、LATS、思维树等研究为代表。依靠单一模型进行“推理-行动-观察”的循环迭代,优点是简单高效,但在处理复杂任务时能力有限。
- 多智能体协作
以CAMEL、AutoGen、MetaGPT等早期框架为典型。通过多个智能体分工协作、多视角交叉验证来纠错,能力更强,但成本较高,且智能体间的沟通容易陷入混乱。
- 分层调度
Claude Code和Devin是这方面的代表。采用分层规划、任务分解的策略,特别适合长周期、高复杂度的研究任务。
- 工具增强执行
以SWE-Agent等系统为例。其核心是强大的工具集,如代码执行环境、网页浏览器、API/数据库接口、多模态工具等。智能体-计算机接口(ACI)的设计直接决定了其性能上限。
这四种模式并无绝对的优劣之分,关键在于针对特定任务选择最合适的工具:简单短期任务可选低成本、易实现的单智能体循环;需要多视角纠错的复杂分工场景,多智能体协作更合适;面对长周期、高复杂度的研究,分层调度(强规划、易监管)是优选;而当任务高度依赖外部工具和环境交互时,工具增强执行模式则能最大程度扩展能力边界。
不过在实际应用中,混合架构正成为趋势,旨在结合多种模式的优势。
现状与瓶颈:从脆弱原型到专用系统
基于上述框架,论文横向对比了当前17个主流的自主研究智能体。分析揭示,该领域已经从早期的通用但脆弱的研究原型,演进到了L4级别的、受限领域内的专用系统。其中,代码智能体的成熟度最高,而科学发现智能体也已开始产出可验证的新成果。
然而,要迈向L5级的完全自主,三大核心瓶颈依然横亘在前:持续知识积累、可靠自我评估,以及架构的规模化。
六大开放问题:指明未来研究方向
论文最后明确提出了六个亟待解决的开放性问题:
- 认知循环陷阱:智能体容易陷入重复无效的策略循环,缺乏自我终止能力。
- 上下文限制:固定的上下文窗口(4K-1M token)难以支撑长周期、需要大量背景知识的研究。
- 创新性评估:目前缺乏自动化的方法来衡量一项研究的原创性与价值。
- 可复现性:模型的随机性和对提示词的敏感性,导致实验结果难以稳定复现。
- 安全与伦理:存在技术双用途风险、自主性提升带来的失控风险,以及学术诚信风险。
- 成本问题:单个复杂任务的成本可能高达50美元,高昂的成本可能加剧科研资源的不平等。
陈德里在博客中坦言,高强度的工作曾让他精力透支,不得不搁置了许多计划。而智能体的出现,让他有机会重新拾起博客写作这类事情。除了这篇综述,他还同步更新了个人主页。
这一切都指向一个清晰的趋势:有了智能体的辅助,这些知识性工作的效率得到了极大提升。人类的角色,正在从任务的“执行者”,转变为更高层次的“发起者”与“评估者”。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
修Bug被Gemini追删代码致宕机修复报告现编
最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修
Notion AI运营指南:自动归纳用户反馈
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
AI给出的答案为何总不符期望?原因解析
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4
2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解
如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

