阿里千问Qwen3.7-Max发布 国产最强AI模型性能登顶
国产大语言模型的性能纪录,再次被改写。
5月20日,阿里巴巴正式推出全新一代通义千问旗舰模型——Qwen3.7-Max。该模型一经发布,便在全球权威大模型竞技场Arena的盲测总榜中取得突破性成绩:它不仅超越了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流竞品,其综合性能更是直逼GPT、Claude、Gemini等国际顶级模型的最新版本,稳坐国产大模型头把交椅。
尤为关键的是,Qwen3.7-Max是专为“智能体(Agent)”时代量身打造的。它在编程、逻辑推理等核心能力上实现了显著跃升,并成功挑战了一项极限任务——完全自主地执行并完成了长达35小时的超长程复杂项目。在一个全新的芯片平台上,Qwen3.7-Max通过自主编程与超过1000次的工具调用,成功驱动了一个关键计算内核的自我优化,最终将推理速度提升了惊人的10倍。
迭代加速,性能全面领先
阿里在大模型领域的研发步伐明显提速。短短三个月内,通义千问旗舰模型已连续迭代了3.5、3.6、3.7三个版本,持续刷新国产模型的性能上限。Qwen3.7-Max在多项核心基准测试中均名列前茅,展现出全方位的强大竞争力。
在编程智能体能力方面,Qwen3.7-Max在SWE-Pro、SWE-Multilingual等评测中均取得领先优势。在终端编程基准Terminal Bench 2.0-Terminus测试中,它以69.7的高分,超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等众多强劲模型。
在通用智能体能力上,Qwen3.7-Max同样进步显著。在贴近实际应用场景的MCP-Atlas、MCP-Mark、Skillbench等测试中表现卓越,超越了GLM5.1、Kimi-K2.6等模型,创下国产模型新高。同时,它在Kernel Bench L3测试中也展现了强大的GPU内核优化实力。
至于核心的逻辑推理能力,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等高难度推理测评中,全面超越了Claude-Opus4.6及所有国产竞争对手。
此外,在通用任务遵循与多语言理解方面,Qwen3.7-Max同样表现突出。它在指令遵循基准IFBench评测中获得79.1分,创下新高;在多语言理解与翻译任务WMT24++、MAXIFE评测中也处于行业领先地位。
编程能力:从原型到工程的跨越
如今,编程能力已成为评估大语言模型实力的关键标尺。Qwen3.7-Max在这方面相比前代模型实现了质的飞跃,从前端原型快速开发到复杂的多文件系统工程,均能高效驾驭。
在评估AI解决真实世界编程问题的SWE-bench系列测评,以及面向科学计算问题的SciCode测评中,Qwen3.7-Max不仅较Qwen3.6-Plus有大幅提升,更一举超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等顶尖对手。
可以说,通义千问3.7是一个卓越的编程智能体。它能够自主编写代码、创造工具、精准执行任务,并在复杂编程过程中完成自我纠错与迭代优化。整个过程,犹如一位资深工程师完整跑通了从需求分析、代码开发到测试迭代的全流程,最终自主产出可投入生产的工业级解决方案。
智能体底座:长程任务与工作流自动化
持续进化的编程能力,为智能体执行更复杂、周期更长的任务奠定了坚实基础。千问3.7本身就具备强大的原生Agent能力,并展现出跨多种智能体框架的优异泛化性能。无论是在Claude Code、OpenClaw还是Qwen Code等不同框架下,它都能稳定发挥,有望成为各类智能体应用系统的可靠技术底座。
通过MCP(模型上下文协议)集成与多智能体协作,Qwen3.7-Max能够在企业级办公场景中实现工作流的自动化处理。在办公自动化基准SpreadSheetBench-v1上,它斩获87分的顶尖成绩,堪称可靠的办公与生产力智能助手。以往需要专业团队耗时一至两周的复杂数据分析项目,如今由Qwen3.7-Max驱动的智能体,可在数小时内完成从需求理解到成果交付的端到端闭环。
35小时极限挑战:自主内核优化
在实战压力测试中,Qwen3.7-Max展示了当前智能体所能达到的长程复杂任务极限。对于大模型而言,推理速度与底层推理框架效率紧密相关,而AI基础设施工程师的核心工作之一,便是对推理框架中的计算算子进行深度优化。这项工作需要极强的专业知识、算法功底以及反复的调试与迭代能力。
如今,千问3.7尝试自主攻克了这一难题。测试设置在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890 AI芯片上。任务目标是优化一个复杂的推理计算内核。在没有任何性能分析数据、硬件文档或新架构示例代码的情况下,千问3.7仅从一个包含任务描述、SGLang Triton参考实现和评测脚本的空白工作空间开始。
从“零”起步,它持续自主编程了35小时,独立进行了432次内核性能评估、1158次工具调用,完全自主地完成了代码编写、编译、性能分析与迭代改进的全流程。
最终成果令人振奋:在平头哥新款AI芯片上,经过千问优化后的推理内核,相比SGLang Triton的最新参考实现,取得了10倍的性能加速。测试日志还显示,模型在独立运行超过30小时后,依然能发现有效的优化机会,甚至主动发起了一次关键性的架构重新设计。这充分证明了千问在复杂任务中具备长周期自主迭代与进化的能力,为未来AI模型与智能体的自我演进开启了全新的可能性。
面向Agentic时代的全面升级
在2026阿里云峰会现场,阿里云宣布面向Agentic(智能体)时代进行全方位技术升级,重磅发布了全新的“芯-云-模型-推理”一体化技术体系。据悉,Qwen3.7-Max模型的API即将在阿里云百炼平台正式上线提供服务。
同时,通义千问3.7系列还将推出Qwen3.7-Plus等多个版本模型,它们将具备强大的多模态推理与视觉理解能力,实现从编程智能体到视觉智能体的能力全覆盖,旨在为下一代人工智能应用构建一个全能的智能体新基座。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
谷歌与XREAL合作推出XR眼镜真机首秀年内全球量产
谷歌与XREAL合作的ProjectAuraAR眼镜在I O2026大会上首次公开实机体验,并宣布年内量产。该设备搭载AndroidXR系统,融合GeminiAI能力,实现空间计算与物理世界的连接。其硬件采用自研芯片与光学技术,展示了三维绘画等交互场景。双方合作旨在推动AR生态发展,加速轻量化设备进入消费市场。
一季度文娱热搜锐减23% 社会民生热点占比显著上升
微博热搜报告显示,文娱热点占比下降23%,各领域热点更趋均衡。平台通过算法升级优化流量分配,并加强内容治理,清理低质信息,提升榜单公信力。用户热搜页消费时长与互动量均实现同比增长。
小米手环10Pro发布 21天超长续航 首销399元起
备受期待的小米手环10 Pro于5月21日正式发布,此次共推出标准版、真皮版与陶瓷版三款型号,首销优惠价分别为399元、449元与479元,为不同需求的用户提供了丰富的选择。 续航能力是智能穿戴设备的核心。小米手环10 Pro内置380mAh硅碳负极大容量电池,在典型使用模式下可实现长达21天的超长
拉勾网申请破产昔日互联网招聘独角兽落幕
5月21日,一则消息在职场圈激起波澜:曾被誉为互联网招聘领域独角兽的拉勾网,申请破产。 天眼查的信息显示,拉勾网的主体运营公司“北京拉勾网络技术有限公司”,在4月和5月接连增加了两条破产案件信息。具体来看,2026年4月29日,新增了案号为(2026)京01破申387的案件;紧接着在5月15日,又新
突破材料极限助力探天入海应用
中国航发航材院在航空材料领域取得系列突破:单晶叶片耐1500℃以上高温,粉末涡轮盘承受极强离心力,橡胶密封件保障重大装备安全。从航空发动机到载人深潜器,材料技术支撑着国家重大工程。科研人员持续攻关,推动我国航空材料事业从跟跑迈向领跑。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

