这件是比OpenAI发布深度研究更值得关注的大事

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

这件是比OpenAI发布深度研究更值得关注的大事

热心网友时间：2026-06-30

转载

北京时间2月3日上午，OpenAI突然发布了一款全新的Agent——deep research。这款工具的核心能力，是利用推理合成大量在线信息，并替用户完成多步骤的研究任务。目前它已经整合到ChatGPT中，Pro用户已经能用，Plus和Team用户也将在后续获得访问权限。

说白了，你只需告诉ChatGPT需要一份什么样的报告，然后在对话框中勾选deep research，它就会自己去查找、分析并综合数百个线上资料，最终生成一份相当于分析师水平的综合报告——整个过程只需要5到30分钟。

这已经是OpenAI近两周内的第三次大动作了。此前，他们刚发布了首款AI Agent“Operator”和最新的推理模型o3-mini。而这三连发的时机也颇有意味——全都发生在DeepSeek-R1发布之后。

图片来源：OpenAI

Youtube上自然少不了看热闹的。有网友在deep research发布视频下留言：“Deepseek应该发布R2，这样我们下周就能接触到GPT5。”

图片来源：OpenAI Youtube账号

有意思的是，OpenAI自己似乎也在惦记DeepSeek。在deep research的直播演示画面中，历史聊天记录里有一个问题赫然写着：“Deeper Seeker是个好名字吗？”

这到底是“无心之失”还是“有意为之”不好说，但OpenAI很可能一开始没想给这个新Agent起名deep research，而是想“碰瓷”DeepSeek——至少留个彩蛋。

图片来源：OpenAI

从技术层面看，deep research由即将推出的OpenAI o3模型的一个版本驱动，这个版本专门针对网络浏览和数据分析进行了优化。它可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件，并实时调整策略。

官方给出了不少应用案例，覆盖商业、大海捞针式检索、医学研究、用户体验设计甚至购物等领域。按照他们的说法，deep research能够提供“全面、精确、可靠的研究”“超个性化购买建议”，甚至挖掘出“小众的、非直观的信息”。

通过deep research生成的市场分析报告，有数据、图表、来源，图片来源：OpenAI

Deep research处理大海捞针问题演示，图片来源：OpenAI

看到这里，不少做行业分析的人恐怕都要倒吸一口凉气：“年还没过完，工作就要没了？”我们把这事分别告诉了DeepSeek-R1和Kimi 1.5。DeepSeek-R1的回应还算温和：“这种变革本质上不是替代，而是将人类智慧从信息处理的‘体力劳动’中解放，转向更高维的价值创造。”而Kimi 1.5则直白得多：“尽管AI在生成研究报告方面展现出了惊人的效率和能力，但人类分析师在理解复杂问题、与客户沟通以及提供专业建议等方面仍然具有不可替代的优势。”

“AI能不能替代人类分析师”这个话题当然值得继续争论，但这次OpenAI o3模型通过deep research展现出的专业能力和复杂问题处理能力，确实非常值得关注。它采用了一种类似人类的方法，在“人类的最后考试”（Humanity’s Last Exam）中取得了迄今为止的最佳成绩。

1.什么是“人类的最后考试”？

这个新基准测试由Center for AI Safety（CAIS）和Scale AI联合推出，目的是评估大语言模型的深度推理能力，并判断专家级人工智能何时真正到来。

基准测试一直是衡量大模型能力的重要工具，但它们的难度并没有跟上模型发展的节奏。以MMLU（Massive Multitask Language Understanding）为例——这个2021年推出的测试涵盖57个学科领域，从基础到高级都有覆盖，包括STEM、社会科学、人文、医学、法律等。但现在很多大模型在MMLU上已经能拿到90%以上的准确率，这意味着它对最先进模型的区分度已经严重不足。

智源研究院副院长兼总工程师林咏华就曾公开表示，有些测评榜单完全可以靠定向训练数据来拔高分数。“C-Eval、MMLU以及CMMLU，这几个类似的测评集已经有点被各个模型过度训练了。”他说，“所以观察大模型能力时，不用过度关注这几个测试集的评分。”

时代呼唤新的基准测试。2024年9月，就在OpenAI发布o1模型后，CAIS和Scale AI开始筹划“人类的最后考试”。2025年1月，这个新基准测试正式推出，相关论文也发到了arXiv上。

在组织团队中，我们发现了一个熟悉的名字——丹·亨德里克斯（Dan Hendrycks）。

“人类的最后考试”组织团队，图片来源：arXiv

Dan Hendrycks，图片来源：UC Berkeley

这位在机器学习、深度学习鲁棒性和AI安全领域颇有影响力的研究者，目前担任非营利组织CAIS的主任，同时也是xAI和Scale AI的顾问。更关键的是——他是当年MMLU基准测试论文的一作。

《MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING》论文，图片来源：arXiv

真正让亨德里克斯下定决心发起“人类的最后考试”的，是OpenAI o1模型——在他看来，这个模型“摧毁了最受欢迎的推理基准”。Scale AI的CEO亚历山大·王（Alexandr Wang）也有同感，去年9月他就呼吁：“我们迫切需要更严格的测试来评估专家级模型，以衡量人工智能的快速进展。”

大约四个月后，CAIS和Scale AI正式推出了这个新基准测试——一个处于人类知识前沿的多模态测试。

“人类的最后考试”共有3000道题目，别小看这个数字——这些题目是从70000道题目中经过重重筛选而来。

题目筛选过程，图片来源：“人类的最后考试”

这些题目涵盖数学、人文、自然科学等100多个学科，由来自全球500多所机构的近1000名专家精心设计。题型包括选择题和简答题，适用于自动评分。关键是，所有题目都有明确且易于验证的标准答案，但大模型无法通过简单的互联网搜索快速得出结果。

“人类的最后考试”题目学科类型占比，图片来源：“人类的最后考试”

之所以叫“人类的最后考试”，是因为它想成为“最终的”封闭式学术能力评估基准。

我们找了一些样题，看得出来，这些专家们为了难住AI大模型确实是“绞尽脑汁”。比如牛津大学墨顿学院的Henry T出了一道题：“这是一段罗马铭文，最初是在墓碑上发现的，请提供帕尔米拉文字的译文。”

图片来源：“人类的最后考试”

还有一道：“在希腊神话中，伊阿宋（Jason）的外曾祖父是谁？”

图片来源：“人类的最后考试”

当然还有大量来自各大名校的数学、物理、化学、计算机科学等学科的题目。

从上至下为数学、物理、化学、计算机科学的题目，图片来源：“人类的最后考试”

这些题目一出，一众大模型纷纷“扑街”。和以往的基准测试相比，包括OpenAI的GPT-4o、o1，以及Anthropic的Claude 3.5 Sonnet、谷歌的Gemini 1.5，在“人类的最后考试”中的准确率都呈现“断崖式下降”。

大模型在不同基准测试中的准确率，HLE指的是“人类的最后考试”，图片来源：“人类的最后考试”

可以看出，“人类的最后考试”相比于MMLU等老牌测试，更专注于通过原创且高难度的题目——尤其是数学和深度推理题——来考察模型的极限推理和解决问题能力。其中还有10%的题目考察了多模态能力（比如理解图片），这进一步提升了难度。

“人类的最后考试”团队在介绍文档中不无得意地写道：“这表明它在测量高级、封闭式学术能力方面非常有效。”

但是今天，OpenAI deep research刷新了大模型在这个测试中的最佳成绩——几乎是此前o1准确率的三倍。

2.OpenAI deep research是如何做到的？

根据OpenAI发布的数据，在deep research的加持下，OpenAI o3模型在“人类的最后考试”中取得了26.6%的准确率。相比o1，模型在化学、人文和社会科学、数学领域的进步最为明显。更重要的是，deep research展示了一种类人化的方式——在必要时高效地找到专业信息。

OpenAI deep research在“人类的最后考试”中取得了26.6%的准确率，创下新高，图片来源：OpenAI

顺便提一句，DeepSeek-R1在这个测试中的准确率略高于o1，这同样是对其推理能力的认可。表格中也注明，DeepSeek-R1和OpenAI o3-mini不是多模态模型，仅在文本子集进行了评估。

那么，deep research到底是怎么做到的？答案藏在这张表格的**号部分——浏览和Python工具。

Deep Research通过端到端强化学习，在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练，它学会了如何规划和执行多步骤的操作流程——找到需要的数据，在必要时回溯，并对实时信息做出反应。模型还能浏览用户上传的文件，使用Python工具绘制和迭代图表，将生成的图表和网站上的图像嵌入回答中，并引用来源中的特定句子或段落。

正是这种训练，让它在多个针对现实世界问题的公开评估中达到了新的高度。

不过OpenAI也坦诚地表示，deep research解锁了新能力，但它仍处于早期阶段，存在一些局限性。根据内部评估，它有时会在响应中产生幻觉或做出错误推断——虽然发生率明显低于现有的ChatGPT。它在区分权威信息和谣言方面还有困难，在信心校准方面表现较弱，常常无法准确传达不确定性。发布时，报告和引用中也可能出现轻微的格式错误，任务启动时间也可能更长。

当然，OpenAI预计这些问题都会随着使用和时间的推移而迅速改善。

这不禁让人思考一个问题：“人类的最后考试”真的会是人类给AI大模型的“最后一场考试”吗？如果新的大模型取得了更高的准确率，这又是否意味着AGI的到来？

“人类的最后考试”团队自己给出的观点是：虽然当前的大模型在这个测试上的准确率还比较低，但根据历史经验，基准测试会很快饱和。他们直截了当地说：“‘人类的最后考试’可能是我们需要给模型进行的最后一次学术考试，但它远非针对AI的最后一个基准测试。”团队预计，到2025年底，大模型有可能在这个测试上实现超过50%的准确率。这固然意味着模型在封闭式、可验证的问题以及尖端科学知识方面达到了专家级水平，但“这并不意味着它具有自主研究能力或者AGI”。

有趣的是，团队发表这些观点的时间是1月24日——而现在，距离那时还不到两周，OpenAI deep research就已经展现了“大模型+Agent”具备的一定自主研究能力。

那么，AGI呢？OpenAI首席研究员Mark Chen在deep research发布会直播的最后说了一句话：“Deep research对我们的AGI路线图非常重要。”

剩下的事情，只能交给时间了。

来源:https://www.aiagiai.com/8216.html

上一篇： AI for Science开年演讲：两位科学家深度解读

下一篇：姜戈之父六大预测1年智能体落地3年普利策奖6年危机