阿里通义千问Qwen3.7实测评测 国产大模型破解奥赛难题与图文识别
今天,阿里通义千问的Qwen3.7系列预览版模型正式上线,包括Max和Plus两个版本。大模型竞技场(Arena.ai)也同步公布了Qwen3.7-Max-Preview的评测成绩。在覆盖主流基座模型的总榜上,这款模型位列第13名,正好卡在GPT 5.5和Grok 4.2之间,是目前榜单上排名最高的国产模型。

具体到细分领域,它的表现同样可圈可点:在数学榜单上排名第7,在专家任务和软件与信息技术任务中均位列第9,编程任务则排在第10。

▲ Arena.ai公布的Qwen3.7-Max-Preview成绩
至于Qwen3.7-Plus-Preview,其总榜排名尚未公布。不过,在竞技场的视觉排行榜上,已经能看到它的身影——排名第16,得分介于GPT 5.4和Gemini-3 Flash之间。
目前,阿里方面尚未披露Qwen3.7系列的具体技术细节。有消息称,在明天的阿里云峰会上,这两款模型的更多信息可能会被揭晓。
现在,用户已经可以通过Qwen Studio抢先体验这两款模型。它们目前以闭源模式发布,其中Qwen3.7-Max-Preview仅支持推理模式,暂不支持图片上传功能。

我们第一时间对两款模型进行了实测。针对Qwen3.7-Max-Preview,测试涵盖了数学、编程、推理等多种任务类型;而对Qwen3.7-Plus-Preview的考察,则主要集中在视觉能力上。
从实际体验来看,这一代Qwen模型的响应速度更快、表达更直接,思考节奏也比前代模型显得更为果断。尤其在编程和视觉理解方面,能力的提升是能够被清晰感知到的。
一、4分钟解出IMO难题,还能写个能跑的EXE
在多个细分领域的排名中,Qwen3.7-Max-Preview的数学得分尤为突出。为了验证这一点,我们直接搬出了2025年国际数学奥林匹克(IMO)的一道难题来考它。
模型拿到题目后,进行了多轮分析和反复核验,最终给出了正确答案。整个过程耗时大约4分钟,思考速度相当不错。

目前Qwen只提供思维链总结,无法看到模型完整的思考过程。但从总结中可以发现,与之前的版本相比,Qwen3.7-Max-Preview似乎“自信”了不少,反复自我核查的环节有所减少。
它在编程任务上的表现也值得一看。不过,由于目前模型只能在网页端体验,我们暂时没有尝试过于复杂的开发任务。
第一个编程任务是让它生成一个番茄钟桌面应用,并直接打包成EXE文件。Qwen3.7-Max-Preview没有在思考环节过多停留,而是迅速投入开发,设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒和任务统计功能的应用。
模型坦言无法直接输出EXE文件,但提供了详细的打包指引。按照指引操作后,应用虽然成功打包,但首次运行时却无法正常启动。

在阅读了报错信息后,Qwen3.7-Max-Preview判断问题出在Tkinter底层(Tcl/Tk)在打包后不支持带透明度的十六进制颜色代码上。

修复这个问题后,桌面应用终于可以正常运行了,核心功能一切正常,只是界面设计略显粗糙。

用HTML输出内容近来成了AI圈的热点。于是,我们让Qwen3.7-Max-Preview设计一份AI社交媒体应用的产品需求文档,并要求直接输出为HTML网页。
接到任务后,它没有先输出文字版再转换,而是直接用HTML输出了全部内容。从结果看,这份产品需求文档结构完整,甚至还配上了产品原型设计。不过,在产品功能定义上似乎有些“大而全”,导致焦点不够突出。
我们还测试了其他类型的任务。在SVG图绘制上,Qwen3.7-Max-Preview顺利生成了一张动态的“鹈鹕骑自行车”图片,画面内容基本准确。
在通用推理任务中,它一眼就看穿了这道“海龟汤”谜题的答案,判断出女孩是红绿色盲,并且很可能不是父亲的亲生女儿。

二、有惊无险攻克视觉版“洗车店难题”,凭一张图复刻微信界面
接下来的测试,重点考察Qwen3.7-Plus-Preview的视觉能力。
第一个任务是道进阶版的“洗车店难题”。我们使用AI生成了一张卫星地图风格的图片,图中仅标注了两个地点之间的距离。
我们告诉模型,左侧地点是“我家”,右侧是“洗车店”,然后提问:如果要去洗车,应该走路还是开车?

从它的思考过程可以看出,模型准确地识别了图片中的文字和视觉信息,并评估了各种选项。有趣的是,在某个思考阶段,它甚至得出了“走路才是最合理高效方式”的结论,险些“掉坑”。
不过,它最终给出了正确答案:开车去洗车,然后走路回家,这样就不用浪费时间在店里干等。

此前在实测其他多模态模型时我们发现,如今的模型在“看图猜地点”上表现不俗。这次也让Qwen3.7-Plus-Preview试了试同样的题目。

看到图片后,模型首先通过建筑风格判断此处位于中国北方某大型城市,然后依据山脉形态推断远处的山属于燕山余脉。最终,它认为远处的山是军都山,并由此推测观察点位于昌平南邵。

这个判断其实是错的,但离正确答案已经非常接近。图中的山脉实际上是北京的凤凰岭,而观察地位于马池口镇,模型的猜测与实际地点相距不到10公里。
视觉能力还能与编程结合。我们随手截了一张微信的界面图,要求模型复刻出一个类似的网页版聊天工具。
执行过程中,尽管图片里没有明显的“微信”字样,但Qwen3.7-Plus-Preview通过UI风格等视觉元素,准确判断出这是微信,并据此规划了设计风格。

从最终的复刻效果来看,模型很好地把握了微信的设计特点,外观还原度相当高。当然,图中的按钮目前还无法实际点击使用。

结语:Qwen系列进入加速迭代期
今年以来,阿里Qwen系列模型的迭代速度明显加快。从2026年2月至今,阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型。相比之下,整个2025年,Qwen主要只发布了Qwen3和Qwen-Next两个大版本。
这种变化意味着,Qwen正在从过去以“大版本发布”为核心的节奏,转向一种更敏捷的开发模式。通过高频的预览版发布和能力增量更新,模型得以更快地进入真实场景接受检验,技术路线的演进也显得更加清晰和持续。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
阿里通义千问Qwen3.7实测评测 国产大模型破解奥赛难题与图文识别
阿里发布Qwen3 7系列预览版模型。Qwen3 7-Max-Preview在大模型竞技场总榜位列第13,为当前国产模型最高排名,在数学等细分榜单表现突出。实测显示,该模型响应更快,在数学推理、编程及视觉任务上能力提升明显,能解答奥赛难题并生成应用。Qwen3 7-Plus-Preview在视觉榜单排名第16,展现出较强的图像理解与界面复刻能力。系列模型正转
魏牌V9X混动MPV上市 34.98万元起搭载智能驾驶大模型
魏牌V9X上市,定位中大型SUV,售价34 98万起。新车基于归元S平台打造,全系标配2 0T混动系统,续航达1700公里。搭载超级智慧底盘、双VLA大模型架构及智慧大灯,车身采用高强度材料,配备多层防护电池包与高标准主动安全系统。
腾势N9闪充版正式上市 硬核实力与快充技术定义豪华SUV新标杆
腾势N9闪充版上市,售价40 98万起。搭载第四代闪充架构,常温5分钟补能300公里,极寒充电仅12分钟。依托超6000座闪充站网络,配备智能底盘与高强度车身,安全性获顶级评价。智能系统集成车载大模型,实现全场景智驾与感知座舱,以技术突破重塑高端SUV价值标准。
英伟达13F文件揭示AI投资新方向从GPU转向瓶颈资产布局
英伟达最新持仓报告显示AI投资趋势正从GPU硬件转向高效交付与价值转化环节,其投资组合涵盖算力运营、光通信及AI制药等领域,致力于构建“AI工厂”生态系统。这表明AI基础设施瓶颈已转向算力部署、网络连接与高价值应用,资本将聚焦尚未被充分定价的瓶颈资产。
AI浪潮驱动MLCC需求增长行业迎来新一轮上行周期
当前,全球人工智能技术浪潮正深刻重塑硬件基础设施,产业链各环节均面临价值重估。其中,作为电子电路基础被动元件的MLCC(片式多层陶瓷电容器),其战略重要性日益凸显,正迎来新一轮产业成长周期。中信证券近期发布深度报告,系统剖析了其背后的核心驱动逻辑与投资机遇。 AI服务器与高压快充:驱动MLCC需求双
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

