OpenAI Deep Research 一手实测功能使用全面深度体验评测报告

AI热点日报时间：2026-06-29

热点解读

OpenAI深度研究在首次通过率和64次一致性指标上表现良好，但实际测试不稳定，对提示词高度敏感，且无法中途干预，链接读取有限，Pro版用户每月仅100次使用额度。官方计划通过推出小模型降低成本以放宽限额。

OpenAI最新Deep Research深度评测报告，带你了解其强大功能与潜在问题。这份评测报告将带你深入了解Deep Research的强大能力以及实际使用中暴露的种种问题。可以说，它既是OpenAI在AI领域的一次重要试探，也暴露出当前技术落地的真实困境。今天就来深入聊聊，Deep Research究竟表现如何，实际用起来又如何。

在pass@1和cons@64这两项核心指标上——简单解释一下，pass@1衡量的是首次尝试的正确率，直接反映模型是否够靠谱；cons@64则是看生成64个结果后正确答案出现的概率，评估模型的上限和覆盖能力——Deep Research都取得了不错的成绩。

细看排行榜会发现，OpenAI公布的“以往最佳”成绩由h2o创造，时间是2024年12月16日。而最新的纪录则由Trase Systems在1月29日更新。这意味着，OpenAI在1月29日之前就已经准备好了这个项目。这时间点，恰巧和阿尔特曼在Twitter上的发声对得上。

有趣的是，实际测试并不总是一帆风顺。举一个典型的例子：用Deep Research来“写一篇有关OpenAI Deep Research的报告，目标受众是AI从业者、投资人和相关研究人员”。5分钟后，它确实输出了一份报告。但关键问题是，这是第四次尝试的结果。在前三次中，输出堪称胡说八道、离题万&里。直到第四次，在提示词中添加了背景信息后，输出才趋于稳定——而即便这样，也重复测试了两次才获得满意结果。

这个案例折射出目前Deep Research的几个核心问题：

非常不稳定——同样的任务，提示词稍有偏差，输出可能天差地别。
对任务描述极度敏感——如果任务没有被描述得非常清楚，模型的理解和执行可能出现较大偏差。更麻烦的是，任务一旦启动，就无法人工干预（包括中途修正或终止）。
链接读取有限——无法读取用户提供的链接（至少不读取公众号链接）。
限额偏低——即便是Pro用户，每月也只有100次的使用额度。

对于限额问题，官方给出了明确信号：“很快，我们会推出一款更省算力的小模型给Deep Research使用，那时所有付费用户都可以获得更多的使用额度。”翻译成大白话就是：OpenAI准备用一个小模型来降低算力成本，同时维持输出质量，从而放宽额度限制。这个消息，不知道是该期待还是该担忧。

既然：OpenAI已经发布了Deep Research，那么：DeepSeek何时发布Open Research？

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：OpenAI Deep Research 一手实测功能使用全面深度体验评测报告要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025020368534.html

ai 人工智能

上一篇：DeepSeek时代提示词针对性技巧

下一篇：一文搞懂深度求索混合专家模型MoE架构原理

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周基于人工智能的室内设计与虚拟布置平台 02 / 本周人工智能驱动客户体验管理与评论分析平台OctoparseVOC 03 / 本周Odoo CRM营销助手扩展全面功能详解与使用技巧大全 04 / 本周扎克伯格称联想基于Meta Llama大模型构建个人AI智能体AI Now 05 / 本周Booking.com房东AI智能即时回复工具

01 / 本月基于人工智能的室内设计与虚拟布置平台 02 / 本月人工智能驱动客户体验管理与评论分析平台OctoparseVOC 03 / 本月Odoo CRM营销助手扩展全面功能详解与使用技巧大全 04 / 本月扎克伯格称联想基于Meta Llama大模型构建个人AI智能体AI Now 05 / 本月Booking.com房东AI智能即时回复工具

热点快看

06-29 20:24基于人工智能的室内设计与虚拟布置平台 06-29 20:24人工智能驱动客户体验管理与评论分析平台OctoparseVOC 06-29 20:24Odoo CRM营销助手扩展全面功能详解与使用技巧大全 06-29 20:23扎克伯格称联想基于Meta Llama大模型构建个人AI智能体AI Now 06-29 20:22Booking.com房东AI智能即时回复工具

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别