AI编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员
阿里通义千问推出CodeElo基准:让AI与人类程序员同台竞技
最近AI圈有个挺有意思的新动向:阿里通义千问团队搞了个叫“CodeElo”的基准测试。简单说,它用上了竞技游戏里常见的Elo评级系统,目的不再是让模型们自己“卷”,而是直接把大模型的编程水平,拉到人类程序员的赛场上比一比。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
项目背景
用大语言模型来写代码、补全代码,已经是AI落地最热门的场景之一了。但说实话,想准确评估一个模型真实的编程能力,一直是个老大难问题。
现有的不少评测基准,像LiveCodeBench、USACO这些,多多少少都有些局限。比如,缺乏足够健壮的私有测试用例,没有专门的评判系统适配,执行环境也时不时来个“变脸”。这些因素堆在一起,让评测结果有时看起来总隔着一层纱,不够透彻。
CodeElo:借力CodeForces,打造更精准的LLM评估体系
那怎么解决这些痛点呢?通义千问团队给出的答案就是CodeElo。这个基准的核心思路很巧妙——直接借助以严格著称的编程竞赛平台CodeForces的题目和评判系统。模型生成的代码,会像人类选手提交的代码一样,在CodeForces的真实环境中接受检验。这样一来,误报、环境不一致这些老问题就迎刃而解了,连那些需要特殊评判机制的题目也能搞定。更重要的是,Elo评级本身就是为了衡量人类选手相对水平而设计的,用它来给模型打分,模型和人类程序员之间的表现高低,一眼就能看明白。
CodeElo三大核心要素:全面、稳健、标准化

这套基准能站稳脚跟,靠的是下面这三个扎实的设计:
- 全面的问题选择:题目可不是随便抓的。它们来自CodeForces,并且按照比赛分区、难度级别和算法标签做了精细分类,确保评估能覆盖不同维度,足够全面。
- 稳健的评估方法:这才是关键所在。代码直接提交到CodeForces平台进行测试,利用其原生的、成熟的评判机制。这意味着不需要依赖可能泄露的隐藏用例,就能获得准确可靠的反馈,评估的稳健性大大提升。
- 标准化的评级计算:采用经典的Elo系统。它不只是看题目有没有做对,还会综合考虑问题的难度,并对提交错误进行扣分惩罚。这实际上是在激励模型产生更高质量、更可靠的解决方案,为评估编码模型提供了一个既细致又有效的量化工具。
测试结果
那么,实测效果如何呢?研究团队对30个开源大模型和3个专有模型进行了测试。结果有点惊人:OpenAI的o1-mini模型一骑绝尘,拿到了1578的Elo评分,这个成绩已经超过了平台上90%的人类参与者。在开源模型阵营里,QwQ-32B-Preview以1261分拔得头筹。

不过,亮眼成绩的另一面,也暴露出现阶段模型的短板。测试发现,很多模型在面对一些简单问题时依然显得吃力,其排名通常徘徊在人类参与者的后20%。进一步分析模型在不同算法类别上的表现,会发现它们在“数学”和“实现”类题目上比较出色,但在“动态规划”和“树形算法”这类更需要复杂逻辑推导的题目上,就显得力不从心了。
还有个有趣的发现:模型在使用C++语言编码时,整体表现更佳。这倒和全球竞技程序员们的普遍偏好不谋而合。这些结果清晰地勾勒出了当前大语言模型在编程能力上的优势区和薄弱点,也为后续的改进指明了具体方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
旧专业大撤退,新AI狂飙:2026高校的冰火两重天
LAIKA 2026 04 22 被AI撕碎了旧文凭 人类文明的航程,本质上是一场生产力与生存空间的博弈。 站在2026年的门槛回望,从蒸汽机的轰鸣到今日人工智能的算法,每一次生产工具的跃迁,都在残酷而精准地重新定义“人”的价值。 农业社会,人依附于土地;工业社会,人依附于机器。而今天,当芯片开始思
AiPathly:AI职业分析工具,提供技能评估和学习路径
想转型进入人工智能领域,但不知道从何下手?这是个普遍存在的困境。好在,现在有工具能帮你系统性地解决这个问题。AiPathly正是这样一款为寻求AI职业转型的专业人士量身打造的分析平台。它的核心逻辑很清晰:你只需上传简历,它就能为你提供一份个性化的技能评估报告,并据此生成一条专属的学习路径。这就像获得
Heimdall ML- 自动化机器学习软件
说到让机器学习变得触手可及,市面上确实不乏各种各样的工具。但其中,能将复杂流程高度自动化,还能优雅处理文本这类非结构化数据的,就得好好看看Heimdall了。 什么是Heimdall? 简单来说,Heimdall是一套自动化机器学习软件解决方案。它的核心使命,是把机器学习能力无缝整合进各类组织的日常
Share Deep Research- 由人工智能驱动的共享和发现AI研究见解的平台
什么是Share Deep Research? 简单来说,Share Deep Research 是一个专为 AI 研究打造的知识中枢。它本质上是一个由人工智能驱动的协作平台,核心目标就两个:让大家能更轻松地分享那些深入的 AI 研究见解,同时也更方便地发现他人的前沿发现。 研究者可以在这里上传自己
OpenML Guide- 一个关于免费和开源的人工智能资源的全面指南
想找人工智能领域的开源和免费资源,但又觉得信息零散、无从下手?这篇指南正是为你准备的。它梳理了一个堪称宝藏的综合性门户,让你能一站式触达海量优质学习材料。 什么是OpenML Guide? 简单来说,OpenML指南是AI领域开源与免费资源的“中央图书馆”。它不是某个单一教程,而是一个庞大的门户,系
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

