OpenAI报告:AI专家任务速度提升100倍,成本降至1%

最新消息,9月27日科技媒体ZDNet于26日发表专题报道,披露OpenAI创新性地推出了GDPval评估基准。这一全新AI测评工具专门设计用于评估前沿AI模型在实际商业场景中的经济价值创造能力,有效弥合了实验室测试与现实应用间的鸿沟。
当前市场涌现大量声称能提升生产力的AI工具,但实际企业应用效果存在明显落差。为解决AI模型学术测评与实际表现不匹配的问题,OpenAI在26日正式发布GDPval评估框架。该体系着眼于"量化AI在经济价值创造类真实任务中的表现",力求为业界提供更具实用参考价值的评估标准。
GDPval测评体系高度还原真实工作场景,其测评范围覆盖对美国GDP贡献最大的9个核心行业、44种典型职业的1320项具体工作任务。所有测评任务均由平均拥有14年行业经验的专业人士设计打造,确保了任务的专业性和实践性。
与传统依赖简单文本问答的测评方式不同,GDPval要求AI模型实际处理办公文档、制作演示幻灯片、格式化商务文件等多种工作输出,从而更全面地验证AI在真实商业环境下的综合表现。
在首次测评中,OpenAI邀请行业专家采用双盲评估方式测试了包括GPT-5、GPT-4o在内的多个顶尖模型,同时对比了Anthropic的Claude Opus 4.1和谷歌Gemini 2.5 Pro等主流产品。
测评结果颇具戏剧性:Claude Opus 4.1凭借在文档排版、幻灯片视觉效果等"美学设计"方面的突出表现荣膺综合榜首;而OpenAI自家的GPT-5则在专业领域知识准确度方面表现最为出色。
研究发现清晰地展现了AI性能的指数级进步和显著成本优势。数据显示,从2024年春季发布的GPT-4o到预计2025年夏季问世的GPT-5,模型的实际工作性能提升超过100%。
最具冲击力的研究结果显示,前沿AI模型完成GDPval测评任务的速度比行业专家快100倍,成本仅为人工的1%。
不过OpenAI特别说明,这些数据仅反映纯模型推理成本,并未计入现实中必要的人工监督、反复修改和系统集成等环节的开支。
OpenAI也坦言GDPval当前存在明显局限。作为初期版本,该基准仅能评估一次性任务表现,尚不能测量模型处理需多轮修改的复杂项目,或应对充满不确定性的现实工作场景。
举例来说,GDPval暂无法评估AI根据客户反馈修改方案的能力,也无法测试处理数据异常等动态情况。OpenAI表示未来将扩展更多行业测评,纳入更具挑战性的任务,并计划开放部分数据集供学术研究使用。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
iQOO 15电竞技术发布会:PC级游戏体验解析
9月23日消息,“跨代领先”iQOO15电竞性能技术沟通会正式举办,2K三星珠峰屏、自研电竞芯片Q3和Monster超核引擎亮相,将
开源鸿蒙五年发展规划:陈海波详解操作系统智能化生态战略
在近日举办的“开源鸿蒙技术大会”上,开源鸿蒙项目群技术指导委员会主席、华为基础软件首席科学家陈海波深入探讨了智能终端操作系统与人工智能技术融合的发展路径。他指出,当前“AI外挂式”技术方案存在成本高
AI技术前沿:科研先锋如何推动革命性突破
华为首席执行官任正非近日提出,人工智能革命或将成为人类社会最后一场重大技术变革。他指出,这场变革将持续数十年甚至数百年,其发展进程可能与能源核聚变技术的突破形成共振。在这场技术浪潮中,科研人员为推动
马斯克xAI将推Grokipedia百科,开源且超越维基准确性
科技界近日迎来一则重磅消息:马斯克在社交平台X上透露,其旗下人工智能公司xAI正在开发一款名为Grokipedia的新型百科全书项目。据他介绍,这款产品将突破传统知识平台的局限,在准确性和中立性方面
国产GLM-4.6大模型性能大升级,摩尔线程联手寒武纪加速
国庆前夕,全球人工智能领域迎来新一轮技术竞赛,多家国内科技企业接连发布大模型升级成果,推动行业进入白热化阶段。智谱AI与DeepSeek两大国产大模型团队在假期前夕密集发力,分别推出GLM-4 6与
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















