当前位置: 首页
AI资讯
DeepSeek开发自动研究技能实现论文撰写仅需人类思考两小时

DeepSeek开发自动研究技能实现论文撰写仅需人类思考两小时

热心网友 时间:2026-05-28
转载

DeepSeek研究员陈德里最近在个人博客上分享了一篇研究综述论文,而这篇论文的诞生过程本身,就堪称一个绝佳的研究案例。

用他自己的话说,这篇论文的创作分工是:

1%是我写的,99%是Agent写的。

他动用了自己开发的技能DeliAutoResearch,由DeepSeek-V4-Pro负责研究和写作,GPT-Image2负责绘图。整个项目迭代了6个版本,总耗时6天,进行了大约108轮Agent调用,消耗了64.8万token,最终生成了2234行LaTeX代码。

成果是一篇包含103个已验证参考文献、长达46页(538KB)的论文,其中包含了7个图表和4个表格。

这篇论文探讨的核心,是自动研究智能体的自主度分级体系。它系统分析了四大主流架构模式,并从可扩展性、成本、可靠性等多个维度进行了对比。不仅如此,论文还基于一个六维特征矩阵,深入剖析了17个主流系统,并最终提出了六大开放性问题及其对应的未来研究方向。

陈德里对此感触颇深。他认为,代码智能体的出现,正在导致计算机科学领域的论文数量呈“疯狂”增长态势。过去需要至少一个月才能完成的工作,现在,他作为人类的“总CPU时间”投入不到2小时,其余均由智能体代劳。

当然,他也附上了一句免责声明:文中观点仅代表个人,与任何组织无关。

从L1到L5:研究智能体的自主进阶之路

论文提出的L1-L5分级体系,清晰地勾勒出了研究智能体的能力演进路径:

  • L1基础自动补全:以早期的GitHub Copilot为代表,核心能力是预测并补全下一行代码。
  • L2任务执行:以配备了各种工具的ChatGPT/Claude等聊天机器人为典型。它们能够分解任务,但每一步执行都需要人类批准。
  • L3多步骤执行:这是当前的主流形态,例如Claude Code、Cursor Agent。它们能够自主执行10到100个步骤,仅在关键节点请求人类审核。
  • L4受限领域全自主:人类仅需提供研究目标和评估最终成果。智能体可以独立完成多步实验、代码编写和论文撰写,但尚无法自主选择研究问题。
  • L5完全自主研究议程:这是理想的未来状态,智能体可以自主选题、分配资源、进行长期知识积累和跨领域持续研究。目前尚未实现,核心瓶颈在于持续知识积累、可靠自我评估和架构的规模化。

目前,行业前沿初步触及L4水平,L5仍是一个有待攻克的设想。论文指出了一个关键洞察:真正的瓶颈或许并非模型本身的能力,而在于「持续知识积累」和「可靠自我评估」这两大系统级挑战。

四大架构模式:如何为任务选择最佳“引擎”

除了按自主性分级,论文还从架构角度归纳了四种主流模式。

  • 单智能体循环

以早期的ReAct、Reflexion、LATS、思维树等研究为代表。依靠单一模型进行“推理-行动-观察”的循环迭代,优点是简单高效,但在处理复杂任务时能力有限。

  • 多智能体协作

以CAMEL、AutoGen、MetaGPT等早期框架为典型。通过多个智能体分工协作、多视角交叉验证来纠错,能力更强,但成本较高,且智能体间的沟通容易陷入混乱。

  • 分层调度

Claude Code和Devin是这方面的代表。采用分层规划、任务分解的策略,特别适合长周期、高复杂度的研究任务。

  • 工具增强执行

以SWE-Agent等系统为例。其核心是强大的工具集,如代码执行环境、网页浏览器、API/数据库接口、多模态工具等。智能体-计算机接口(ACI)的设计直接决定了其性能上限。

这四种模式并无绝对的优劣之分,关键在于针对特定任务选择最合适的工具:简单短期任务可选低成本、易实现的单智能体循环;需要多视角纠错的复杂分工场景,多智能体协作更合适;面对长周期、高复杂度的研究,分层调度(强规划、易监管)是优选;而当任务高度依赖外部工具和环境交互时,工具增强执行模式则能最大程度扩展能力边界。

不过在实际应用中,混合架构正成为趋势,旨在结合多种模式的优势。

现状与瓶颈:从脆弱原型到专用系统

基于上述框架,论文横向对比了当前17个主流的自主研究智能体。分析揭示,该领域已经从早期的通用但脆弱的研究原型,演进到了L4级别的、受限领域内的专用系统。其中,代码智能体的成熟度最高,而科学发现智能体也已开始产出可验证的新成果。

然而,要迈向L5级的完全自主,三大核心瓶颈依然横亘在前:持续知识积累、可靠自我评估,以及架构的规模化。

六大开放问题:指明未来研究方向

论文最后明确提出了六个亟待解决的开放性问题:

  • 认知循环陷阱:智能体容易陷入重复无效的策略循环,缺乏自我终止能力。
  • 上下文限制:固定的上下文窗口(4K-1M token)难以支撑长周期、需要大量背景知识的研究。
  • 创新性评估:目前缺乏自动化的方法来衡量一项研究的原创性与价值。
  • 可复现性:模型的随机性和对提示词的敏感性,导致实验结果难以稳定复现。
  • 安全与伦理:存在技术双用途风险、自主性提升带来的失控风险,以及学术诚信风险。
  • 成本问题:单个复杂任务的成本可能高达50美元,高昂的成本可能加剧科研资源的不平等。

陈德里在博客中坦言,高强度的工作曾让他精力透支,不得不搁置了许多计划。而智能体的出现,让他有机会重新拾起博客写作这类事情。除了这篇综述,他还同步更新了个人主页。

这一切都指向一个清晰的趋势:有了智能体的辅助,这些知识性工作的效率得到了极大提升。人类的角色,正在从任务的“执行者”,转变为更高层次的“发起者”与“评估者”。

来源:https://www.bestblogs.dev/article/16a79a11?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
修Bug被Gemini追删代码致宕机修复报告现编

修Bug被Gemini追删代码致宕机修复报告现编

最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修

时间:2026-05-28 22:58
Notion AI运营指南:自动归纳用户反馈

Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

时间:2026-05-28 22:54
AI给出的答案为何总不符期望?原因解析

AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

时间:2026-05-28 22:54
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

时间:2026-05-28 22:53
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们

时间:2026-05-28 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程