当前位置: 首页
AI资讯
DeepSeek研究员用AI撰写论文 六天完成四十五页研究

DeepSeek研究员用AI撰写论文 六天完成四十五页研究

热心网友 时间:2026-05-27
转载

昨晚,AI研究圈里发生了一件挺有意思的事。DeepSeek资深研究员陈德里(Deli Chen)发布了一篇他与智能体“合著”的论文。这篇长达45页的综述,据他透露,其中99%的内容都是由他搭建的“CodeAgent”自主完成的。

论文的题目是《从Copilots到同事:自主科研智能体综述》,作者栏赫然写着陈德里、DeepSeek-V4-Pro和GPT-Image2。这更像是一次大胆的“人机协作”实验。

陈德里本人也特意做了说明:这篇论文并非严谨的学术发表,不代表任何公司或组织,纯粹是出于个人兴趣,并顺便测试一下他开发的“DeliAutoResearch”系统。

整个创作过程颇具效率。论文共迭代了6个版本,从启动到完成耗时6天,而智能体生成初稿仅用了76分钟。在这期间,智能体累计运行了约108轮,消耗了64.8万个Token,生成了2234行LaTeX代码。最终产出的45页PDF中包含了7个图表和4个表格。陈德里感叹,同样的工作量在过去至少需要一个月,而这次他本人的深度参与和思考时间,加起来不到2小时。

作为DeepSeek多代核心模型架构的贡献者,陈德里的这次“玩票”实验,其产出却相当扎实。论文系统梳理了机器学习、软件工程和科学发现三大领域的105篇相关文献,旨在为自主科研智能体建立一个统一的分析框架。其核心成果可以概括为四点:

首先,提出了一套清晰的五级自主能力分级体系,从L1到L5,将能力范围从代码补全一直延伸到完全自主规划研究,为界定和比较不同系统提供了标准。

其次,剖析了四大主流架构模式,并搭建了评估框架,对比它们在可扩展性、成本等方面的优劣。

第三,基于六维特征矩阵,对17款主流系统进行了分析。结论显示,当前最先进的系统普遍处于L4级别,而L5级别仍是一个理论构想

最后,指出了该领域面临的六大核心挑战,并为每个挑战指明了具体的研究方向。

研究分析发现,实现最高级L5自主能力的核心瓶颈,其实不在于模型的基础性能,而在于三个更深的层面:长效知识的沉淀、可靠的自我评估能力,以及具备理论支撑的、可规模化的智能体架构方案。

一、当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征

那么,如何定义“自主研究智能体”?论文给出的概念是:一种在接收到高层研究目标后,能够独立执行“假设-实验-分析-优化”这一科学探究闭环的软件系统,整个过程仅需极少或完全无需人工干预。

其提出的五级体系,主要依据两个维度:一是智能体能独立决策的内容范围,二是其无需人工审核能持续运行的时间长度。

L1级别的典型代表是GitHub Copilot这类代码补全工具。它们的能力是预测下一个token或下一行代码,但研究的方向、结构和正确性完全由人类主导。

L2级别则涵盖了带插件的ChatGPT等对话式助手。它们能将清晰定义的任务拆解为多个步骤执行,但每一步都需要人类的显性或隐性批准。

L3级别是代码智能体。它们能自主执行10-100个连续动作,只在预设检查点或遇到不确定情况时才请求人工审核。与L2的核心区别在于,它们能自主做出诸如“编辑哪个文件”、“如何修复测试”等决策。

L4级别的代表包括AI Scientist、Devin等系统。它们能从研究目标出发,完全独立地生成思路、运行实验、撰写论文,甚至模拟同行评审,全过程无需干预,可持续运行数小时至数天。

L5是理论上的最高级别。智能体不仅能执行任务,还能自主选择研究问题、在多个项目间分配资源,并基于历史成果持续进化。目前尚无系统完全达到此级别,但像Voyager、FunSearch这样的系统已展现出部分L5特征。

二、四大主流架构可适配不同层级系统

为了支撑不同层级的自主能力,业界演化出了几种主流架构模式:单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环是基础且应用最广的架构,它让单个语言模型循环执行“观察-推理-行动-反馈”的过程。别看它简单,这恰恰是大多数L3-L4级系统的核心骨架,灵活性很强。

多智能体协作模式则将任务责任分配给多个专业化智能体,通过协作达成目标。

当任务复杂到一定程度,扁平化的多智能体通信会变得低效,这时就需要分层编排架构。它引入了一个监督者角色,负责任务分解、分配和进度监控。

最后,工具增强执行是自主研究智能体的标志性能力。它让语言模型从文本生成器转变为能与代码、实验设备、网络环境交互的“参与者”,极大地扩展了能力上限。

总体来看,架构的选择与自主级别紧密相关。L2系统用简单的单智能体循环即可;L3系统采用带反思机制的架构收益最大;L4系统通常需要分层编排来维持长时间运行的稳定性;而理论上实现L5,可能需要具备自重组能力的图结构架构。

三、三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟

论文基于六维特征矩阵(自主等级、应用领域、架构模式等)对17个主流系统进行了深入分析,得出了几个值得关注的结论。

首先,代码智能体是目前最成熟的赛道。得益于成熟的工具链、自动化评测体系和大规模基准测试,它们在所有维度中都表现最优。

其次,“专才”胜于“通才”。像SWE-Agent、Coscientist这类聚焦特定领域的L4系统,通过收窄应用范围实现了稳定输出。而AutoGPT等旨在解决通用任务的智能体,反而难以在多样化任务中达到稳定的L4级表现。

最后,开源与闭源的性能差距正在显著缩小。例如,开源系统OpenHands的表现已经非常接近Devin等知名闭源系统。

关于如何评估这些智能体,论文指出了三个关键方向:采用多维度指标(联合评估创新性、正确性等)、开展长周期评测(追踪其在真实科研项目中的表现)、以及建立社群化评估流程(嵌入专家反馈循环)。

论文最后梳理了六大待解难题:认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险与使用成本。其中,认知死循环、原创性评估和安全问题尤为关键。智能体尚无法识别自己陷入了无效策略的循环;也缺乏可靠的自动化指标来评估科研成果的原创性;同时,随着能力提升,其潜在的安全与伦理风险也日益凸显。

结语:双AI协作产出完整论文,智能体真变身科研同事了

回过头看,陈德里的这次实验颇具象征意义。它不仅仅是一次技术演示,更是一次关于未来科研范式的预演。通过双AI协作,仅投入极少的人类“CPU时间”,就完成了一篇逻辑清晰、内容完整的综述论文。这证明,AI正在从一个被动的工具,向能够承担长周期、复杂流程工作的“科研同事”角色演进。

这次尝试的成功,关键在于智能体展现出了三项核心能力:超长文本的连贯处理、长流程任务的持续执行,以及贯穿始终的逻辑一致性。在科研智能体这个前沿领域,陈德里既通过实践验证了可行性,又通过系统的理论分析指出了现状与挑战。这种“实践+洞察”的结合,无疑为后续的研究提供了一个新颖而坚实的参考起点。

来源:https://www.zhidx.com/p/560832.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
杰克科技股价下跌4.53% 成交2.38亿元主力净流出2141万

杰克科技股价下跌4.53% 成交2.38亿元主力净流出2141万

5月27日,杰克科技(股票代码:603337)股价出现显著调整,当日收盘下跌4 53%,引发市场关注。全天成交额达2 38亿元,换手率为1 15%,公司总市值报206 76亿元。 异动原因深度解析 本次股价波动,市场焦点主要集中于公司所涉及的“人形机器人、机器视觉、工业互联网、人工智能”等热门概念。

时间:2026-05-27 15:49
动态行渲染算法改造LIMS系统实现多项目检测表单复用与异步回填

动态行渲染算法改造LIMS系统实现多项目检测表单复用与异步回填

针对LIMS系统检测项目繁多引发的“模板爆炸”问题,提出基于JSONSchema的动态行渲染方案。该方案通过轻量化表单引擎实现运行时动态生成与渲染,可根据试样数量自动增减行。利用URL映射与ResultPath技术,能精准对接多源设备数据并异步回填,支持私有化部署以保障安全,显著提升了系统复用性与开发效率。

时间:2026-05-27 15:49
岩山科技今日股价下跌3.91% 主力资金净流出1.60亿元

岩山科技今日股价下跌3.91% 主力资金净流出1.60亿元

5月27日,岩山科技(股票代码:002195)股价出现调整,当日收盘下跌3 91%,市场成交额达11 60亿元,换手率为2 60%。尽管股价波动,公司总市值仍稳定在445 71亿元,显示出一定的市场体量。 异动分析:多重热门概念叠加的科技公司 深入分析岩山科技的基本面,可以发现其是一家融合了脑机接口

时间:2026-05-27 15:48
Notion AI界面使用指南:功能布局与入门操作详解

Notion AI界面使用指南:功能布局与入门操作详解

NotionAI的入口可通过空格键、斜杠命令或快捷键唤出。输入框顶部的五个图标分别对应问答、头脑风暴、文档处理、文风调整和对话续写功能。生成内容以可编辑的蓝色块呈现,支持重试、融合及直接修改,便于用户高效定制与整合。

时间:2026-05-27 15:48
测试岗缩编后生存指南:高效工作系统助你脱颖而出

测试岗缩编后生存指南:高效工作系统助你脱颖而出

最近测试圈子里有个趋势挺明显:面试官不再只问你手写自动化脚本了,而是开始考察“如何用 Claude Code 搭建一套完整的自动化测试管线”。重点从编码能力,转向了架构设计能力。 手工测试岗位收索的余波未平,AI测试工具又来挤压传统的工作空间。但很多团队对 Claude Code 的应用,还停留在最

时间:2026-05-27 15:47
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程