阿里千问登顶全球冠军,超越Gemini3与GPT5.1推理能力
11月26日消息,今日空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL与Qwen2.5-VL强势占据冠亚军位置,超越了Gemini 3、GPT-5.1、Claude Sonnet 4.5等国际顶尖模型。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
SpatialBench榜单显示,Qwen3-VL-235B与Qwen2.5-VL-72B分别取得了13.5和12.9分的优异成绩,显著领先于Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)及Claude Sonnet 4.5等海外头部模型。

不过需要指出的是,AI大模型的整体表现与人类水平仍存在差距。人类基准线约为80分,能够专业处理电路分析、CAD工程和分子生物学等复杂空间推理任务,而目前大模型还无法完全自动化完成此类工作。
据了解,Qwen2.5-VL于2024年开源,Qwen3-VL则是阿里在2025年开源的新一代视觉理解模型。
Qwen3-VL在视觉感知和多模态推理方面实现了重大突破,在32项核心能力测评中超越Gemini 2.5 Pro和GPT-5。该模型不仅能调用截图、搜索等工具完成“带图推理”,还能通过一张设计草图或一段小游戏视频直接进行“视觉编程”。

与此同时,Qwen3-VL专门增强了3D检测能力,能够更准确地感知空间关系。基于该模型,机器人可以更好地判断物体方位、视角变化和遮挡关系,实现远处物体的精准抓取。
目前,Qwen3-VL已开源不同版本,包括2B、4B、8B、32B等密集型模型以及30B-A3B、235B-A22B等MoE模型,每个模型都提供指令版和推理版两款,是当下最受企业和开发者欢迎的开源视觉理解模型。同时,Qwen3-VL模型也已上线千问APP,用户可免费体验。
据悉,SpatialBench是近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为衡量“具身智能”进展的新兴测试标准之一。
SpatialBench不仅测试模型已有的知识储备,还重点评估模型在二维和三维空间中感知和操控抽象概念的能力,这对具身智能的落地应用尤为关键。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
“天团”出海:揭秘我国首套最强“大脑”与无人系统联合演练
来源:科技日报3月26日起,大连海事大学在相关海域组织开展“新红专”轮无人集群系统海上演示实验,“海陆空潜”一体化智能系统集中亮相,该系统是我国首套以实船为核心平台的跨域立体协同作业体系,标志着我国
美宇航员空间站紧急撤离原因:突然失语背后真相
IT之家 3 月 29 日消息,据美联社报道,今年早些时候引发美国国家航空航天局(NASA)首次太空医疗撤离行动的宇航员,于当地时间周五表示,医生至今仍未查明他在国际空间站突发疾病的原因。曾四次执行
《天国:拯救2》工作室引入AI,翻译岗位面临变革
IT之家 3 月 29 日消息,Warhorse Studios 工作室开发人员 Max Hejtmánek 昨天在 Reddit 论坛发文称,自己即将被公司解雇,原因是 AI 取代了他的岗位。据介
中国脑机接口技术临床落地,多款产品加速转化应用
据新华社消息,2026中关村论坛年会展览上,中国自主研发的“北脑一号”“北脑二号”等脑机接口产品引发关注,其中“北脑一号”已成功完成7例人体植入,实现患者运动与言语功能重建,“北脑二号”今年将进入临
华人研制无透镜相机,2厘米外看清指纹汗孔,成像精度超显微镜
当我们观察手机摄像头时,你能清楚的看到玻璃保护层下的那组小镜头,没了它手机就拍不了照。但是,如果把镜头拿掉,就剩一块光秃秃的芯片,它还能成像吗?近日,美国康涅狄格大学的郑国安教授团队造出了一台完全没
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

