OpenAI报告:AI专家任务速度提升100倍,成本降至1%
最新消息,9月27日科技媒体ZDNet于26日发表专题报道,披露OpenAI创新性地推出了GDPval评估基准。这一全新AI测评工具专门设计用于评估前沿AI模型在实际商业场景中的经济价值创造能力,有效弥合了实验室测试与现实应用间的鸿沟。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
当前市场涌现大量声称能提升生产力的AI工具,但实际企业应用效果存在明显落差。为解决AI模型学术测评与实际表现不匹配的问题,OpenAI在26日正式发布GDPval评估框架。该体系着眼于"量化AI在经济价值创造类真实任务中的表现",力求为业界提供更具实用参考价值的评估标准。
GDPval测评体系高度还原真实工作场景,其测评范围覆盖对美国GDP贡献最大的9个核心行业、44种典型职业的1320项具体工作任务。所有测评任务均由平均拥有14年行业经验的专业人士设计打造,确保了任务的专业性和实践性。

与传统依赖简单文本问答的测评方式不同,GDPval要求AI模型实际处理办公文档、制作演示幻灯片、格式化商务文件等多种工作输出,从而更全面地验证AI在真实商业环境下的综合表现。
在首次测评中,OpenAI邀请行业专家采用双盲评估方式测试了包括GPT-5、GPT-4o在内的多个顶尖模型,同时对比了Anthropic的Claude Opus 4.1和谷歌Gemini 2.5 Pro等主流产品。
测评结果颇具戏剧性:Claude Opus 4.1凭借在文档排版、幻灯片视觉效果等"美学设计"方面的突出表现荣膺综合榜首;而OpenAI自家的GPT-5则在专业领域知识准确度方面表现最为出色。

研究发现清晰地展现了AI性能的指数级进步和显著成本优势。数据显示,从2024年春季发布的GPT-4o到预计2025年夏季问世的GPT-5,模型的实际工作性能提升超过100%。


最具冲击力的研究结果显示,前沿AI模型完成GDPval测评任务的速度比行业专家快100倍,成本仅为人工的1%。
不过OpenAI特别说明,这些数据仅反映纯模型推理成本,并未计入现实中必要的人工监督、反复修改和系统集成等环节的开支。
OpenAI也坦言GDPval当前存在明显局限。作为初期版本,该基准仅能评估一次性任务表现,尚不能测量模型处理需多轮修改的复杂项目,或应对充满不确定性的现实工作场景。
举例来说,GDPval暂无法评估AI根据客户反馈修改方案的能力,也无法测试处理数据异常等动态情况。OpenAI表示未来将扩展更多行业测评,纳入更具挑战性的任务,并计划开放部分数据集供学术研究使用。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
我把 Anthropic 的 Harness 工程思想做成了一个 Skill
用AI写代码,难在哪儿? 用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。 用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇
沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责
美国零售巨头拥抱AI新玩法:功能归我,风险归你? 最近有件事挺有意思,美国那边的大型零售商们,正铆足了劲把AI往购物流程里塞。但你猜怎么着?一旦AI捅了娄子,买单的却很可能变成了消费者自己。 这不,就在当地时间4月5号,外媒Futurism的一篇报道就点破了这个现象。企业们一边热火朝天地推广AI功能
小米物流大件“当日达”服务上线 50 城
小米物流大家电“当日达”实现全国50城覆盖,上午11点前下单最快当日送达 对于大家电配送时效长的普遍困扰,小米物流带来了全新的解决方案。最新消息显示,小米旗下大件商品的“当日达”服务范围已成功拓展至全国50座重点城市。除了北京、上海、广州、深圳、杭州、成都等一线与新一线核心城市外,此次升级还囊括了天
为什么现在很多人觉得 OpenClaw 不好用
当前开源版本的定位 你得明白,当前的开源版本,本质上更偏向于一个**开发者工具链**,而非一个即开即用的完整产品。它的核心组件非常明确: 一个基于 Node js 的运行环境 (runtime) 一个网关 (gateway) 插件与技能 (plugins skills) JSON 配置文件 命令
WorkBuddy工具
好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

