五大旗舰AI模型编程实测 Qwen3.7 Max是否实至名归

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

五大旗舰AI模型编程实测 Qwen3.7 Max是否实至名归

热心网友时间：2026-05-28

转载

```html

国产AI编程领域的实力，再次迎来了新的突破。阿里最新发布的旗舰模型Qwen3.7 Max，在编程竞技榜单上勇夺全球第二，仅次于Claude Opus 4.7，成绩超越了GPT-5.5、Gemini 3.5 Flash和DeepSeek V4 Pro。

国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

除了来自用户的真实选择，在传统大模型固定评测榜单上，比如终端能力Terminal Bench、编程能力SWE Bench等，Qwen3.7 Max的成绩同样拿下了国产模型的冠军。

国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

大模型领域发展到今天，排行榜的刷新已屡见不鲜，但这次还是忍不住想亲身体验一下，那个能超越GPT-5.5的Qwen模型，实战能力到底怎样。要知道，当前最火的Coding Agent组合，大概就是搭配了GPT-5.5的Codex。如果把Codex里的默认模型换成Qwen3.7 Max，用它来完成日常编程任务，会不会比GPT-5.5更好用呢？

获取Qwen3.7 Max

趁着各家都在推出Token优惠活动，阿里云也提供了100万Token的免费额度，可在阿里云百炼平台直接使用。

国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

Qwen3.7 Max在阿里云官网的定价，目前限时五折：输入6元/百万tokens，输出18元/百万tokens。新用户还能以五折充值节省计划，用10元/月的价格获得20元的Token额度，而Token Plan标准档是198元/月。

国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

根据大模型聚合平台OpenRouter的数据，Qwen3.7 Max的价格属于中规中矩的一档。和DeepSeek的“骨折价”肯定没法比，但对比Opus 4.7、GPT-5.5，依然实惠不少。

国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

直接充值了“入门首选”这档全模型通用抵扣20元。需要注意，五折优惠仅支持一个套餐，买了10元的，就不能再购买50元或250元的半价优惠计划了。

国产AI编程冲上全球第二！实测五大模型，谁才是Vibe Coding神器

DeepSeek、Claude、GPT、Gemini、Qwen 一起来测试

拿到API Key和百万免费Token后，先在阿里云百炼平台和千问官网，用Qwen3.7 Max做了些常见的前端网页设计，来测试它的开发能力。一个比较直观的测试是物理模拟，提示词很简单：“用HTML+CSS+JS做一个模拟液体在容器里晃动的动画，拖动容器可以改变倾斜角度。”

Qwen3.7 Max顺利完成了模拟挑战，还额外增加了颜色自定义、摇晃效果、液体量调节等功能。DeepSeek的表现比较简单，但也没有出错。GPT-5.5生成的液体有点奇怪，虽然会随角度切换流向对应方向，但波浪效果很出戏。Gemini 3.5 Flash生成的网页存在Bug，瓶子一直隐藏到控制面板背后，需要手动拖出来，但自定义选项确实丰富，提供了瓶子类型、液体颜色等多种设置。Claude Opus 4.7的瓶子过于简陋，剧烈晃动时液体效果很像音波跳动。

接着尝试生成一个小游戏。虽然游戏测试已经是去年Vibe Coding的常见项目，但这次要求AI做一个六宫格的2048游戏，提示词是“做一个可以玩的2048，但格子是六边形的”。Qwen3.7 Max生成的页面很美观，参考来源大多来自CSDN的2048游戏教程，游戏可以玩，但偶尔会出现数字叠加位置不对的情况。DeepSeek V4表现中规中矩，但六边形游戏却只给出了WASD键盘控制。Claude Opus 4.7表现最好，它真正理解了蜂巢规则的游戏设置，格子移动符合逻辑。GPT-5.5依托Codex能力，生成后能自动打开浏览器预览并抓取控制台信息修复代码，最终网页很优秀，但在监控鼠标移动方向上稍逊于Opus 4.7。Gemini 3.5 Flash一如既往地加了很多内容，游戏主题拥有赛博、暗金、马卡三种背景，甚至还内置了“高品质合音器”，游玩过程配有原生Web Audio生成的复古8-bit太空音效。

回到普通网页设计，要求做一个地铁博物馆网站，提示词只有一句话：“设计一个名为地铁博物馆的主题网站，要求沉浸感强”。本意是希望模型能罗列不同城市的地铁信息、世界地铁Logo，网站风格艺术化且有充分特效。Qwen3.7 Max的表现有点难评，文字竖排很像地铁列车，但整体感觉很乱。Gemini再次做了很多，声效依旧用上，还做了一个地铁文创——定制纪念票根生成器，可以输入名字、选择车站，实时生成高颜值复古风纪念乘车票。DeepSeek选择的项目与Gemini类似，有票务纪念和驾驶体验，但最终并没有呈现这些功能。GPT-5.5生成的网页风格不错，有明显的套用模板痕迹，设计在线，但信息量太少，似乎没理解地铁博物馆应该介绍地铁信息。

继续用之前的提示词，让它做一个macOS/Windows操作系统，输入“用HTML构建一个完整的浏览器操作系统”。DeepSeek V4表现很简单，Qwen3.7 Max同样简单，但额外给了张不错的桌面风景图片。这次测试中，真正让人眼前一亮的还是Gemini 3.5 Flash和GPT-5.5，两者都对整个OS进行了详细设计，有专门的风格。

在Codex里使用Qwen3.7 Max

一轮测试下来，Qwen3.7 Max在通过对话生成小网页项目的表现上，很难说每次都能超越Gemini、GPT-5.5，但对比前代，提升确实很大。千问官网有一些代码案例，比如3D地球、食物链排序、可视化、个人博客等，但这些项目的提示词都比较长，而不是简单一句话。

把3D地球这个项目的提示词也扔给DeepSeek V4和Gemini 3.5 Flash，得到的效果几乎和Qwen3.7 Max一样。这意味着在当前阶段，提示词对发挥Qwen3.7 Max的能力起着相当重要的作用。而减少用户优化提示词压力的方式，大概就是接入Agent产品，利用其Skills和Agents协作等能力，发挥模型的真正实力。

按照阿里云官方教程，把Qwen3.7 Max成功接入到了Codex终端助手。不过这里容易出现Bug：Codex会不断提示“CODEX Missing environment variable”。按照官方教程，修改完~/.codex/config.toml配置文件后，还需要修改电脑的环境变量——模型的API KEY信息保存在电脑的环境变量中，而不是在Codex的config.toml配置文件里。修改完成后，在终端输入Codex，就能看到Qwen3.7 Max，重新打开Codex App，主界面模型也会从之前的GPT-5.5切换为自定义的Custom。用同样的方法，可以把DeepSeek、MiniMax、Kimi、智谱等模型都接入Codex。

前段时间，GitHub上有一个前端Skill收获了两万多Star，主打让AI生成的前端界面更好看，这和Qwen3.7 Max拿下第二名的榜单任务类似。安装这个Skill到Codex中，尝试结合Skill看看效果。输入同样提示词，Codex会自动调用前端设计、头脑风暴等Skill来完成设计定位和构思，并严格按流程控制监控项目生成。最后，同一个模型在Codex里的表现比直接在千问官网好不少。

但这里容易遇到一个问题：“stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format.”当模型需要调用专门工具时，就无法再和模型取得连接。问题原因可归结为“模型部署厂商针对流式输出格式有问题，不是标准OpenAI协议，所以不支持API调用，出现400报错”。让Codex解释这个问题时，它也说模型问题。不是配置错了，而是Qwen3.7 Max / 百炼Responses API对Codex agent工具调用还不够稳。能对话不代表能稳定跑Codex，长任务、改代码、频繁读文件时，切回OpenAI官方模型会稳定很多。

去年还在说“模型即产品”，一个足够好的模型就是一个好产品。现在看来，单靠模型远远不够。记忆、Harness、Agents编排、验证、推理的可持续性等，随着模型能力增加，这套架构也在持续扩充。只有都做好了，才能说“这是一个好模型”。

```

来源:https://www.aitntnews.com/newDetail.html?newId=25584

上一篇：永赢基金重仓石头科技浮亏近40万元股价下跌超3%

下一篇：数据库AI工程化才是从演示到可用的关键而非提示词