GPT-5表现媲美专家?OpenAI最新测试揭秘

OpenAI最新研究显示,其GPT-5模型与Anthropic公司Claude Opus 4.1在专业领域表现突出,已接近行业专家水准。
当地时间9月25日,这家领先的AI研究公司推出全新基准测试GDPval,旨在衡量AI系统与各行业专业人士的工作质量差距。作为通向通用人工智能(AGI)的重要环节,这项开创性测试聚焦经济价值工作的评估。
测试概况
GDPval选取对美国GDP贡献最大的九大行业进行测评,涵盖医疗、金融、制造、政府等关键领域。测试涉及44个职业类别,从软件开发到护理服务再到新闻采编,力求全面反映职场生态。
测评方法
在GDPval-v0首轮测试中,OpenAI采用专业人士盲评方式:邀请行业资深人士对比AI生成报告与人类专家成果。以投行业为例,测试要求分析师完成"最后一公里配送行业"竞争格局分析,并与AI报告进行专业比较。
测试结果
数据显示,GPT-5高性能版在40.6%的测试场景中达到或超越专家水平;而Anthropic的Claude Opus 4.1表现更为突出,在近半数测试项目(49%)中与人类专家平分秋色。OpenAI技术团队解释,Claude的部分优势源自其出色的可视化呈现能力。
未来展望
OpenAI首席经济学家Aaron Chatterji强调,这些突破意味着专业人士可以将基础性工作交由AI处理。评估负责人Tejal Patwardhan指出,相比15个月前GPT-4o仅13.7%的达标率,GPT-5实现近三倍提升,展现出令人鼓舞的发展速度。
值得关注的是,当前测试仍存在局限性。OpenAI表示正在开发更完善的评估体系,未来将纳入更多行业指标和交互式工作场景。随着技术持续突破,AI与人类专家协作的新篇章正在开启。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
荣耀Magic8系列首发骁龙8至尊版,AI智能体推升高端体验
高通近日正式推出第五代骁龙8至尊版移动平台,宣称其为“全球移动CPU性能标杆”。该芯片延续2+6核心架构设计,其中两个Prime核心主频提升至4 6GHz,六个性能核心运行频率达3 62GHz。与前
国产低空载人航空器亮相数贸会,科幻科技成真
第四届全球数字贸易博览会近日在杭州拉开帷幕,这场汇聚全球数字贸易精华的盛会,吸引了154个国家和地区的1800余家企业踊跃参展。展会现场,数字贸易领域的最新成果与发展趋势交相辉映,为观众呈现了一场科
小米17系列发布:7500mAh电池+IP69防水,4499元起
在智能手机市场,小米始终是备受关注的品牌,其创始人雷军的传奇经历也为小米增添了不少话题性。过去,小米手机以高性价比著称,早期推出的机型价格亲民,但也因此让不少消费者形成了“小米只做性价比”的固有印象
图灵算力研究院携四大AI黑科技亮相数贸会
无论是健康陪伴、视频生成,还是应用开发,这些高度依赖数据处理的AI服务,都离不开底层芯片的支撑。徴格半导体发布的4通道5Gsps ADC芯片ZGAD5000Q16,正是这些创新成果的“科技底座”。作
雷军演讲揭晓小米汽车5年技术突破与服务升级
北京国家会议中心内,雷军第六次登上年度演讲台。这一次,他选择的关键词是“改变”——这个主题背后,是小米五年间从互联网公司向硬核科技企业转型的深层逻辑。五年前,当小米跨过2000亿营收门槛时,企业面临
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程


















