首页
AI
OpenAI实测:最强打工AI评测,榜首竟是它

OpenAI实测:最强打工AI评测,榜首竟是它

热心网友
转载
2025-09-27
来源:https://36kr.com/p/3483351282539392

OpenAI最新研究报告意外点赞Claude实力

近日,OpenAI发布了一项名为GDPval的全新基准测试,专门用于评估AI模型在具有实际经济价值的任务中的表现。

这一基准覆盖了美国GDP贡献最大的9大行业中的44种职业,由具备14年从业经验的行业专家精心设计任务,涉及年产值合计3万亿美元的专业领域。经过专业评审团的严格比对,Claude Opus 4.1以47.6%的任务成果媲美人类专家的表现拔得头筹。

值得注意的是,GPT-5以38.8%的成绩位居第二,与第一名存在明显差距;而GPT-4o的表现仅为12.4%。面对结果,OpenAI解释称各模型各有所长:Claude在审美表现上更胜一筹,而GPT-5则在准确性方面保持领先。

同时,OpenAI公布了包含220项任务的精选子集,并开放了自动化评分服务。此举引发了业内广泛关注,有观点认为这可能是OpenAI为展示AI经济价值所作的精心营销。

GDPval评估体系详解

与传统AI评估相比,GDPval具有以下突出优势:

  • 基于真实工作场景,精准计算时间与成本
  • 覆盖美国职业信息网络(O*NET)核心工作内容
  • 支持多格式文件处理与多模态分析
  • 评估标准除准确性外还包括结构与风格等主观因素
  • 任务复杂度高,专家平均需要7小时完成

在测试构建过程中,研究团队首先筛选出对美国GDP贡献超过5%的9个核心行业,并在每个行业中选取5个薪资最高且以数字化工作为主的职业。最终选定的44个职业代表了3万亿美元的年产值。

行业顶尖专家参与评审

为确保评估权威性,OpenAI组建了平均14年从业经验的专家团队,成员来自苹果、谷歌、微软等科技巨头,以及摩根大通等金融机构。这些专家需要通过严格的多轮筛选,包括背景调查、专业测试等环节。

在任务设计阶段,每位专家需要根据O*NET的职业分类标准,为其专业领域创建代表性强的工作任务。每项任务都经过至少3轮人工审核,平均修改5次后才能最终定稿。

模型表现深度分析

在220项精选任务的盲测中,Claude Opus 4.1展现出卓越的审美能力,特别是在文档排版、PPT设计等需要视觉表现力的任务上表现出色。而GPT-5则在纯文本处理和精准计算方面保持优势。

研究还发现,将AI辅助引入工作流程可以显著提升效率:在超50%的任务中,AI产出达到或超过人类专家水平。采用"AI初稿+人工修改"的模式可以节省大量时间成本。

OpenAI同时指出当前GDPval存在的局限:样本量有限、主要针对知识型工作、缺乏交互性任务等。未来将持续拓展评估范围,完善评分系统。

值得玩味的是,微软近期宣布将与Claude的开发商Anthropic合作,优化其Microsoft 365 Copilot服务。这一动向似乎佐证了Claude在商业应用中的突出表现。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

深圳众擎创始人赵同阳:郑州子公司10月落地,布局全球智造中心

9月26日,郑州国际会展中心内人头攒动,第十五届中国河南国际投资贸易洽谈会在此拉开帷幕。本届大会以“共商开放合作,共赢发展未来”为主题,吸引了来自海内外的众多企业和投资者齐聚一堂。开幕式上,深圳众擎

2025-09-27.

骁龙8至尊版发布:AI影像升级性能更强劲

随着智能手机行业进入新一轮技术革新周期,高通公司推出的第五代骁龙8至尊版移动平台引发市场广泛关注。这款基于全栈自研架构打造的旗舰芯片,在CPU、GPU、NPU等核心模块实现全面突破,标志着移动计算技

2025-09-27.

2025通信展:昇腾384超节点展示AI赋能通信新体验

近日,北京迎来一场信息通信领域的年度盛会——2025年中国国际信息通信展。本次展会以“数实融合新引擎 智启未来新动能”为核心主题,集中呈现了信息通信行业从基础设施到终端应用的完整创新链条,覆盖前沿技

2025-09-27.

能辉科技借力AI+机器人,光储协同驱动业绩增长

在新能源行业从追求规模扩张转向聚焦质量提升的关键节点,深耕行业多年的能辉科技(301046)正以独特路径突破发展瓶颈。这家成立于2009年的企业,通过 "光伏储能筑基、AI技术提效、机器人拓展增量 "的

2025-09-27.

华为ACT三步计划:助力行业智能化转型实践指南

随着人工智能技术的迅猛发展,大模型迭代速度不断加快,但多数行业在智能化转型过程中,仍面临技术从实验室走向生产线的巨大挑战。如何让AI真正融入核心生产场景,成为企业关注的焦点。从商业价值体现到专有数据

2025-09-27.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
永恒机甲战争
永恒机甲战争 角色扮演 2025-09-27更新
查看
汤姆猫跑酷无限金币钻石鞭炮
汤姆猫跑酷无限金币钻石鞭炮 休闲益智 2025-09-27更新
查看
汤姆猫跑酷2025
汤姆猫跑酷2025 休闲益智 2025-09-27更新
查看
Roblox国际服正
Roblox国际服正 休闲益智 2025-09-27更新
查看
蜀山传奇小米
蜀山传奇小米 角色扮演 2025-09-27更新
查看
帝王三国2025
帝王三国2025 棋牌策略 2025-09-27更新
查看
帝王三国
帝王三国 棋牌策略 2025-09-27更新
查看
太空杀腾讯
太空杀腾讯 休闲益智 2025-09-27更新
查看
帝王三国腾讯
帝王三国腾讯 棋牌策略 2025-09-27更新
查看
棕色尘埃2国际服(BrownDust2)
棕色尘埃2国际服(BrownDust2) 角色扮演 2025-09-27更新
查看