OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员
OpenAI最新研究:当前AI模型仍无法媲美人类程序员
最近有个话题很热:OpenAI的首席执行官萨姆·奥尔特曼公开预测,到今年年底,人工智能模型就能超越“低级别”的软件工程师。这话听起来雄心勃勃,但现实可能比预想的要骨感一些。他们自家研究团队最新发布的论文,恰恰给出了一个相反的信号——哪怕是最前沿的AI模型,眼下依然难以与人类程序员比肩。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

研究人员在论文里点出了一个核心结论:即使是那些最具突破性的前沿模型,“仍然无法解决大多数”实际的编程任务。为了得出这个判断,他们专门搞了个新玩意儿:SWE-Lancer基准测试。这个测试的“题库”可不一般,它基于自由职业平台Upwork上真实存在的1400多个软件工程任务,总价值不菲。用这套接地气的考题,研究团队测试了三款热门的大型语言模型:OpenAI自家的推理模型o1、旗舰产品GPT-4o,以及Anthropic公司的Claude 3.5 Sonnet。
测试怎么考?模型表现如何?
这个新基准主要考察LLMs处理两类Upwork任务的能力:一类是具体的“个体任务”,比如修复某个bug并实施解决方案;另一类是更宏观的“管理任务”,需要模型从更高层面做出决策。测试设置还有个关键限制:所有模型都被断网了,这就杜绝了它们直接上网搜索、复制粘贴现有答案的可能性,考验的是真实的理解与生成能力。
结果怎么样?这些模型尝试的任务,在真实世界中总报酬可达数十万美元,但它们的表现只能算差强人意。模型们往往能快速处理一些表面问题,但一旦面对大型项目,需要深挖漏洞根源时,就立刻显得力不从心。这种场景是不是很熟悉?AI常常能给出一个听起来无比自信、逻辑完整的回答,可一经仔细推敲,里面却可能漏洞百出。 这就像交上来一份格式完美的报告,核心数据却算错了。
论文也承认,在速度上,这三款模型通常能“远超人类”地提交答案。但快不代表好。问题在于,它们缺乏对漏洞广泛性及其背后复杂背景的真正理解,这直接导致提供的解决方案要么是错的,要么就不够全面。
谁表现稍好?离实用还有多远?
有趣的是,在这场“内部对决”中,来自Anthropic的Claude 3.5 Sonnet表现略胜一筹,在测试中“赚取”的虚拟报酬也超过了OpenAI的o1和GPT-4o。然而,这仅仅是“矮子里面拔将军”。研究人员明确指出,即便是它,给出的答案大多数仍然是错误的。 所以结论很清晰:任何模型想要真正投入到实际编程工作中,都必须具备“高得多的可靠性”。
说到底,这篇论文传递的信息很明确:尽管前沿AI模型在处理某些细节任务时速度惊人,但就解决复杂编程问题的整体技能水平而言,它们距离人类工程师还差得很远。
话说回来,尽管大型语言模型近几年发展迅猛,未来也注定会持续进化,但就目前在软件工程领域的实际能力来看,它们远未达到取代人类的地步。不过,一个值得玩味的现象是:这似乎并没有阻止一些公司的CEO们开始行动,他们选择解雇人类程序员,转而押注于这些尚未成熟的AI模型。这个决定的风险与收益,恐怕只有时间才能给出答案了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Morise.ai : AI 助力 YouTube 创作者
需求人群 Morise ai 瞄准的目标,其实非常广泛。简单来说,但凡希望在 YouTube 上有所建树的创作者,不论你是单打独斗的个人博主,还是背后有团队的商业频道,它都能派上用场。这套工具的核心价值,在于把那些繁琐、耗时的“筹备工作”自动化处理掉,让创作者能把宝贵的时间和精力,真正聚焦在内容创作
如何用即梦AI重绘图片局部文字,不会设计1分钟也能学会修改图片
有朋友问,咱们生成的一些AI图片,部分内容是乱码,可以怎样快速改成自己想要呈现的文字。 就像上面这张图展示的,如果想要把门头上的文字准确地改成“锅头的店铺”,同时还得保证新文字的风格跟原图完全匹配,有没有靠谱的办法? 解决方案 答案是肯定的。其实,借助即梦AI的智能画布功能,用它的“局部重绘”特性,
1分钟教会你通过AI做PPT,用DeepSeek一键生成 PPT
当DeepSeek遇上Kimi:1分钟生成专业PPT的协同工作流 最近AI领域的热点,想必大家都注意到了:DeepSeek这款工具,仅仅用了七天时间,全球用户量就突破了一亿大关,堪称现象级产品。 那么,如果把这个“王炸”级工具,和另一个以长文本处理闻名的AI助手Kimi组合使用,会产生什么化学反应呢
IBM 企业级 AI开发平台 watsonx.ai 上线 DeepSeek R1 蒸馏模型
IBM企业级AI平台迎来新成员:DeepSeek-R1蒸馏模型正式上线 技术圈又有新动态了。就在近日,IBM正式宣布,其企业级AI开发平台watsonx ai迎来了两位重量级新成员——DeepSeek-R1蒸馏版的Llama 3 1 8B与Llama 3 3 70B模型。这意味着,企业开发者现在可以
民警利用 AI 大模型找回 70 名失踪被拐儿童,其中 18 名童年时期无照片
民警利用AI大模型,将无童年照片的被拐36年男子“带回”家 科技的力量,有时就体现在它能让看似不可能的事情,生出希望的嫩芽。春节前夕,一则来自南昌铁路公安处庐山站派出所的消息,就为我们呈现了这样一个温暖的场景:民警汪挺通过AI大模型的助力,成功帮助与被拐离散长达36年的刘水泉一家人团聚。而这次寻亲的
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

