当前位置: 首页
AI资讯
DeepSeek自动研究技能详解:两小时高效完成论文写作

DeepSeek自动研究技能详解:两小时高效完成论文写作

热心网友 时间:2026-05-27
转载

最近,DeepSeek的研究员陈德里在个人博客上分享了一篇关于自主研究智能体的综述论文。这篇论文的诞生过程本身,就堪称一个绝佳的案例。

他坦言,这篇论文“1%是我写的,99%是Agent写的”。整个过程,他动用了自己开发的技能“DeliAutoResearch”,由DeepSeek-V4-Pro负责研究和写作,GPT-Image2负责绘图。经过6天时间、约108轮Agent调用,消耗了64.8万token,最终生成了2234行LaTeX代码,完成了一篇包含103个已验证参考文献、46页、538KB,并配有7个图表和4个表格的完整论文。

这篇论文的核心,正是探讨如何为自动研究智能体建立一个清晰的自主度分类体系。它系统性地分析了四大主流架构模式,并从可扩展性、成本、可靠性等多个维度进行了对比。同时,论文基于一个六维特征矩阵,深入剖析了17个主流系统,并最终提出了该领域面临的六大开放问题及相应的研究方向。

陈德里对此感触颇深。他认为,代码智能体的出现,正在导致计算机科学领域的论文数量“疯狂膨胀”。过去需要至少一个月才能完成的工作,如今他本人投入的“总CPU时间”不到两小时。当然,他也附上了一句免责声明:所有观点仅代表个人,与任何组织无关。

DeepSeek研究员与V4 Pro合写的论文

当前,基础模型的飞速发展正推动AI工具从单纯的研究辅助,转向真正的自主研究。但整个领域面临一个尴尬的局面:缺乏统一框架、术语混乱、评估标准不一。为了解决这个问题,陈德里和他的AI“合著者们”提出了一个L1到L5的自主分级体系。

这个体系巧妙地借鉴了自动驾驶的SAE分级标准,为混乱的AI智能体领域梳理出了一条清晰的演进谱系。

  • L1(自动补全):这是最基础的级别,类似于早期的GitHub Copilot,核心能力是预测并补全用户的下一行代码。
  • L2(任务执行):以ChatGPT、Claude等聊天机器人结合工具插件为代表。它们能够分解任务,但每一步执行都需要人类的明确批准。
  • L3(多步骤执行):这是目前的主流水平,例如Claude Code、Cursor Agent。智能体可以自主执行10到100个步骤,只在关键决策点请求人类审核。
  • L4(受限领域全自主):人类仅需提供研究目标和评估最终成果。智能体可以在特定领域内独立完成多步实验、编写代码乃至撰写论文,但其核心局限在于无法自主选择研究问题。
  • L5(完全自定议程):这是尚未实现的理想状态。智能体能够自主选题、分配资源、进行长期知识积累并开展跨领域持续研究。其核心瓶颈在于持续知识积累、可靠自我评估以及架构的规模化。

目前,行业前沿初步触及L4的门槛,而L5仍是一个远景设想。论文明确指出,真正的瓶颈并非模型的基础能力,而在于“持续知识积累”和“可靠自我评估”这两个系统性难题。

除了按自主性分级,论文还从架构角度总结了四种主流模式。

  • 单智能体循环:以早期的ReAct、Reflexion、LATS、思维树(ToT)为代表。由单一模型进行“推理-行动-观察”的循环迭代。优点是简单高效,但处理复杂任务的能力有限。
  • 多智能体协作:以CAMEL、AutoGen、MetaGPT等框架为代表。通过多个智能体分工协作、多视角交叉验证来提升效果。缺点是成本较高,且智能体间的沟通容易陷入混乱。
  • 分层调度:以Claude Code和Devin为代表。采用分层规划、任务分解的策略,非常适合长周期、高复杂度的研究任务,也易于人类监管。
  • 工具增强执行:以SWE-Agent等为代表。其核心能力高度依赖于外部工具,如代码执行环境、网页浏览器、API/数据库、多模态工具等。智能体与计算机接口(ACI)的设计直接决定了其性能天花板。

这四种模式并无绝对的优劣之分,关键在于针对不同的任务场景选择合适的工具:简单短任务可选单智能体循环(低成本、易实现);需要多视角纠错的复杂分工可选多智能体协作;长周期、高复杂度研究适合分层调度(强规划、易监管);需要深度对接外部工具和环境时,工具增强执行则是更优选择(其能力边界由工具决定)。

不过在实际应用中,为了取长补短,混合架构正成为更普遍的选择。

基于上述研究框架,论文横向对比了当前常见的17个自主研究智能体。分析揭示,该领域已经从早期脆弱、通用的原型,演进到了L4级别的受限领域专用系统。其中,代码智能体的成熟度最高,而科学智能体也已开始产出可验证的新发现。

而要迈向L5的完全自主,核心瓶颈依然清晰:持续知识积累、可靠自我评估以及架构的规模化。

最后,论文提纲挈领地指出了领域面临的六大开放问题:

  • 认知循环陷阱:智能体容易陷入重复无效的策略循环,缺乏自我终止能力。
  • 上下文限制:固定的上下文窗口(4K-1M token)无法支撑真正长周期的研究。
  • 创新性评估:目前缺乏自动化方法来衡量研究成果的原创性与价值。
  • 可复现性:模型的随机性和对提示词的敏感性,导致实验结果难以稳定复现。
  • 安全与伦理:存在技术双用途风险、自主性提升带来的失控风险以及学术诚信风险。
  • 成本问题:单任务成本可能高达50美元,高昂的成本正在加剧科研资源的不平等。

One More Thing

陈德里在分享中提到了一个有趣的视角。他坦言,高强度的工作导致的精力不足,曾让他搁置了许多个人计划,比如维护博客和持续写作。而现在,智能体让他有机会将这些事情重新捡起来。

除了这篇研究综述,他还利用智能体高效更新了个人主页。这一切都指向一个趋势:有了智能体的辅助,人类的角色正在从具体的“执行者”,转变为更高层次的“发起者”和“决策者”。效率的提升是显而易见的,而人与AI协作的边界,也正在被重新定义。

来源:https://www.qbitai.com/2026/05/425523.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
京东618加码AI研发投入 打造泛在智能生态

京东618加码AI研发投入 打造泛在智能生态

每年的618大促,早已超越单纯的购物节范畴,成为洞察头部电商平台技术战略走向的关键窗口。在2026年启动发布会上,京东集团释放出明确信号:其在人工智能领域的研发投入,将在上一年度基础上大幅提升,增幅超过两倍,投入规模持续位居行业领先地位。 真金白银的投入究竟成效如何?最新数据给出了直观印证。今年第一

时间:2026-05-27 14:49
项目经理招聘要求与求职必看的10个关键点

项目经理招聘要求与求职必看的10个关键点

在企业的招聘体系中,项目经理的职位描述始终是关注的焦点。这并不令人意外,因为项目的成败,很大程度上取决于这位核心“掌舵者”的能力。随着企业对执行效率与成果交付质量的要求日益提升,卓越的项目经理已成为人才市场的稀缺资源。因此,对于求职者而言,透彻理解招聘方的显性与隐性要求,是成功获得心仪职位的关键。

时间:2026-05-27 14:49
杭州余杭人工智能产业知识产权运营中心正式成立

杭州余杭人工智能产业知识产权运营中心正式成立

新华社客户端浙江频道5月24日电(记者张璇)人工智能领域备受瞩目的年度盛会——2026全球人工智能技术大会,于5月23日至24日在杭州余杭未来科技城圆满闭幕。本届大会由中国人工智能学会主办,会上迎来一项里程碑式成果:国家级人工智能(关键应用)产业知识产权运营中心正式揭牌成立。 这一国家级平台的建设主

时间:2026-05-27 14:48
项目计划制定指南5步轻松掌控项目进度

项目计划制定指南5步轻松掌控项目进度

常言道,“凡事预则立,不预则废”。对于企业而言,任何重大项目的启动,若缺乏一份详尽周密的项目计划书,就如同在未知海域中盲目航行,风险极高。项目计划书正是这场商业“战役”的核心作战蓝图,其战略价值无可替代,而制定一份高质量的计划书本身,就是一项关键的管理挑战。 本文将深入解析项目计划书的核心作用,并为

时间:2026-05-27 14:48
国泰基金重仓云天励飞浮亏109万 股价下跌3.05%

国泰基金重仓云天励飞浮亏109万 股价下跌3.05%

5月27日,云天励飞股价下跌3 05%,报74 66元。国泰基金旗下两只重仓该股的基金合计持有46 44万股,按当日股价计算,产生浮亏约109 14万元。其中一只基金在一季度进行了加仓,另一只为新进建仓。

时间:2026-05-27 14:47
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程